Tvärspråklig NLP

Parallella flerspråkiga resurser innehåller värdefull lingvistisk information som kan utnyttjas i olika områden inom datorlingvistik. Den mest uppenbara tillämpningen är maskinöversättning med system som kan tränas på stora textsamlingar och dess mänskliga översättningar. Länkade parallella korpusar kan också användas som kunskapskälla för identifiering av lingvistiska mönster genom att behandla översättningar som naturlig semantisk annotation. Parallella data kan även användas för att överföra lingvistiska verktyg och resurser till nya språk. Detta är särskild användbart för resursfattiga språk. Vår forskningsgrupp i Helsingfors jobbar på flera av dessa områden som inkluderar statistisk maskinöversättning och annotationsöverföring. Läs nyheterna i vår blog som är relaterade till tvärspråklig NLP.

Flerspråkiga Resurser:

Verktyg:

  • BNAS: Basic Neural Architecture Subprograms
  • Docent: Document-Level Statistical Machine Translation
  • efmaral: Efficient Markov Chain Word Alignment
  • UPlug: Tools for Processing Parallel Corpora (ICA & ISA)
  • Lingua::Align: A Toolbox for Tree Alignment
  • subalign: Tools for Aligning Translated Movie Subtitles

Tvärspråklig NLP kom till forskningsgruppen i Helsingfors under året 2015. Forskare som jobbar inom området är:

Aktuella publikationer:

  1. Robert Östling: Morphological reinflection with convolutional neural networks. In Proceedings of the 14th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology
  2. Tiedemann, Jörg and Cap, Fabienne and Kanerva, Jenna and Ginter, Filip and Stymne, Sara and Östling, Robert and Weller-Di Marco, Marion: Phrase-Based SMT for Finnish with More Data, Better Models and Alternative Alignment and Translation Tools. In Proceedings of the First Conference on Machine Translation at ACL 2016, 391-398
  3. Guillou, Liane and Hardmeier, Christian and Nakov, Preslav and Stymne, Sara and Tiedemann, Jörg and Versley, Yannick and Cettolo, Mauro and Webber, Bonnie and Popescu-Belis, Andrei: Findings of the 2016 WMT Shared Task on Cross-lingual Pronoun Prediction. In Proceedings of the First Conference on Machine Translation at ACL 2016, 525-542
  4. Tiedemann, Jörg: A Linear Baseline Classifier for Cross-Lingual Pronoun Prediction.  In Proceedings of the First Conference on Machine Translation at ACL 2016, 616-619
  5. Aaron Smith, Christian Hardmeier and Jörg Tiedemann
    Climbing Mont BLEU: The Strange World of Reachable High-BLEU Translations.  In Baltic Journal of Modern Computing (BJMC), Vol 4, No. 2, Special Issue: Proceedings of the 19th Annual Conference of the European Association of Machine Translation (EAMT), 2016
  6. Jörg Tiedemann: OPUS – Parallel Corpora for Everyone. In Baltic Journal of Modern Computing (BJMC), Vol 4, No. 2, Special Issue: Proceedings of the 19th Annual Conference of the European Association of Machine Translation (EAMT), 2016
  7. Tiedemann, J.: Finding Alternative Translations in a Large Corpus of Movie Subtitles. In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC-2016), 2016.
  8. Lison, P. and Tiedemann, J.: OpenSubtitles2015: Extracting Large Parallel Corpora from Movie and TV Subtitles. In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC-2016), 2016.
  9. Tiedemann, J. and Agić, J.: Synthetic Treebanking for Cross-Lingual Dependency Parsing. In Journal of Artificial Intelligence Research, 55: 209-248, 2016. doi..  more…
  10. Jörg Tiedemann and Željko Agić: Synthetic Treebanking for Cross-Lingual Dependency Parsing. In Journal of Artificial Intelligence Research. 55, pages 209-248, January 2016
  11. Jörg Tiedemann, Filip Ginter and Jenna Kanerva: Morphological Segmentation and OPUS for Finnish-English Machine Translation, In Proceedings of the Tenth Workshop on Statistical Machine Translation,  pages 177-183, 2015
  12. Christian Hardmeier, Preslav Nakov, Sara Stymne, Jörg Tiedemann, Yannick Versley, and Mauro Cettolo: Pronoun-Focused MT and Cross-Lingual Pronoun Prediction: Findings of the 2015 DiscoMT Shared Task on Pronoun Translation, In Proceedings of the Second Workshop on Discourse in Machine Translation (DiscoMT), pages 1-16, 2015
  13. Robert Östling: Word order typology through multilingual word alignment. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), pages 205-211, Beijing, China, July 2015. Association for Computational Linguistics.
  14. Robert Östling, Carl Börstell, and Lars Wallin: Enriching the Swedish Sign Language Corpus with part of speech tags using joint Bayesian word alignment and annotation transfer. In Proceedings of the 20th Nordic Conference on Computational Linguistics (NODALIDA 2015), volume 23 of NEALT Proceedings Series, pages 263–268, Vilnius, Lithuania, May 2015.