Aihearkisto: Työkalut

Opus Repository

Opus Repository on työkalu, jolla pystyt luomaan omia kaksi kielisiä korpuksia yksikielisistä teksteistä. Löydät sen täältä: https://opus-repository.ling.helsinki.fi/.

Opus Repositoryn käyttöohje löytyy täältä: https://tfs.ling.helsinki.fi/tra-data/Opus-Repositoryn%20käyttöohje.htm

Käyttäohje toimii vain yliopiston verkossa (Eduroam tai VPN-yhteys kotoa).

MarianNMT:n käyttöohje

MarianNMT on C++-ohjelmointikielellä kirjoitettu konekäännin, jota voit käyttää esim. Taito-shellin kautta.

MarianNMT:n käyttöohje löytyy täältä: https://tfs.ling.helsinki.fi/tra-data/MarianNMTn%20käyttöohje.html

Käyttöohje näkyy vain yliopiston verkossa (Eduroam tai VPN-yhteys kotoa).

Digiloikka: TMX käännösmuistipoimuri

Digiloikka: TMX-poimuri

Käännetyistä EU-dokumenteista on EU DGT kerännyt dokumenttikohtaisia käännösmuisteja. Kussakin on yhden dokumentin käännökset  kaikilla saatavilla kielillä (kaikkia dokumentteja ei tosin ole käännetty kaikille kielille).

EU-dokumentit on indeksoitu EuroVocin asiasanoilla. Asiasanoilla (tai niitä vastaavilla eurovoc-numeroilla) voi siten hakea tiettyyn aihealueeseen liittyviä dokumentteja ja niiden käännösmuisteja.

Asiasanoitus ei ole kovin erotteleva kääntämisen kannalta. Dokumentin indeksointi eurovoc-numerolla ei välttämättä takaa, että siitä käännösmuistiin valitut segmentit koskevat ko. aihetta. Mutta ehkä se jotakin teettää.

Digiloikan TMX poimuri poimii EU DGT:n TMX-käännösmuisteista yksiköitä kieliparin (-suunnan) ja dokumenttien eurovoc-koodien perusteella.
Poimituista yksiköistä muodostetaan uusi TMX-käännösmuisti, joka tallennetaan Termitehtaan palvelimelle (jos poimittavaa löytyi).

Poimitut käännösmuistit löytyvät tulostaulusta (scoreboard).

Poimitut käännösmuistit ovat vapaasti saatavilla. Poimintaan tarvitaan Termitehtaan käyttäjätunnus.

Termitehdas näkyy vain yliopiston verkossa. Kotoa sinne pääsee vpn:llä.

Linkki tulostauluun ja linkki poimuriin löytyy alempaa.

EU linkkejä

DGT:n käännösmuistit

EUR-lex EuroVoc -selain

EuroVoc-asiasanastot

Digiloikka

HUOM Termitehtaan palvelin näkyy vain yliopiston verkossa.

Edellisistä johdettuja taulukoita ja tilastoja

Tulostaulu

Poimuri

Maisterikoulun memsource – nimeämiskäytännöistä

Kun luotte Memsourceen linguist-tunnuksia, luokaa kullekin opiskelijalle tunnus, joka on samannäköinen kuin opiskelijan sposti-osoite yliopistolla: esim minun tunnukseni olisi ”juha.eskelinen”, Tuijan ”tuija.t.kinnunen”. Tällä vältämme sen, että samalla opiskelijalla on turhaan käytössään useita tunnuksia, meillä on kuitenkin jaettavana vain 500 linguist-tunnusta ja 50 PM-tunnusta.

Kun luotte projekteja, käännösmuisteja tai sanastoja, aloittakaa nimi AINA opettamanne kurssin koodilla. Tämä helpottaa niiden tunnistamista ja poistamista sitten kun niitä ei enää tarvita.

Poistakaa tarpeettomat projektinne, käännösmuistinne ja termipankkinne kun kurssinne päättyy.

(ohjeen lähde: Juha Eskelinen)

Sketch Engine

Helsingin yliopiston henkilökunta ja opiskelijat voivat käyttää Sketch Engine -korpusohjelmaa kirjautumalla palveluun yliopiston tunnuksilla (https://www.sketchengine.eu/ valitse kirjautumistavaksi Institutional login ja valitse listasta University of Helsinki). Käyttö on ilmaista maaliskuuhun 2022.

EU Vocabularies

EU Vocabularies on EU:n uusi sanasto- ja ontologiasivusto.  Tiettyyn aiheeseen liittyviä sanoja voi hakea kaikista sanastoista tai pelkästään EuroVocista. Sivustolta pääsee myös selaamaan EuroVoc-sanakirjaa.

Linkki sivustolle: https://publications.europa.eu/fi/web/eu-vocabularies

Comic Translation Tool

Comic Translation Tool on ilmaisohjelma, jonka avulla voi kääntää sarjakuvia. Ohjelmalla pystyy kääntämään JPEG- tai PNG-muodossa olevia sarjakuvia. Sarjakuvia voi kääntää monille kielille (ohjelmaan voi myös lisätä kieliä), ja apuna voi käyttää MyMemory-käännösmuistia.

Linkki ohjelmaan: https://sites.google.com/site/orepmetiur/comic-translation-tool

JHS-sanasto

JHS-sanasto* on käännöstoimisto Lingosoftin kokoama julkishallinnon sanasto, jossa on paljon termejä suomeksi sekä termien käännökset englanniksi ja ruotsiksi.

*JHS = Julkisen hallinnon suositukset

Linkki sanastoon: http://jhs-sanasto.jhs-suositukset.fi/JHS/fi/index

OpenNMT

Tällä sivulla voit vapaasti ja maksuttomasti ladata lähdekoodin omaa konekäännintäsi varten. Sivulta löytyy myös jo valmiiksi ”koulutettuja” versioita. Lähdekoodi on saatavilla kolmella eri ohjelmointikielellä: LuaTorch, PyTorch (Python-pohjainen) ja TensorFlow.

Linkki sivustolle: http://opennmt.net/

Pure Neural Machine Translation Demonstrator

Systranin kehittäjät ovat tehneet puhtaasti hermoverkoilla toimivan konekääntimen. Konekäännintä voi kokeilla vapaasti. Lähtökieliä on melko paljon (myös suomi), mutta mahdollisia kielipareja on ainakin tällä hetkellä hyvin vähän.

Linkki konekääntimeen: https://demo-pnmt.systran.net/production#/translation