Näin arvioit, maksaako konekäännöksen käyttö vaivan

Kaikki Google Translatea joskus kokeilleet tietävät, että sen tekemistä käännöksistä tulee välillä hölynpölyä.

Konekääntimet voivat kuitenkin olla hyödyllisiä apuvälineitä kääntäjille. Kone ei tosin hoida koko hommaa napin painalluksella vaan ammattikääntäjän työpanosta tarvitaan yhä: kone tuottaa lähtötekstistä raakakäännöksen, jonka kääntäjä sitten editoi esimerkiksi kunnon suomeksi. Jälkieditoinnin työläyteen vaikuttavat mm. konekäännökseen tehtyjen muutosten lukumäärä, virheiden tyyppi ja virkkeen pituus.

Konekäännösten jälkieditointia väitöskirjassaan tutkinut Maarit Koponen huomasi, että erityisen työläitä editoitavia olivat esimerkiksi sanajärjestykseen ja idiomeihin liittyvät virheet sekä tapaukset, joissa konekäännin on tulkinnut sanaluokan väärin – esimerkiksi muuttanut substantiivin “people” (ihmiset) verbiksi (kansoittaa).

Tutkimuksessa kävi ilmi, että tietyntyyppisten kielellisten virheiden korjaaminen on mahdollista, vaikka lähtötekstiä ei olisi nähtävänä. Tällaisia ovat esimerkiksi tapaukset, joissa sanan taivutusmuoto on väärin, mutta oikea muoto on helposti pääteltävissä.

Sellaiset virheet, jotka haittaavat tekstin merkityksen välittymistä, voivat puolestaan tehdä korjaamisesta mahdotonta. Konekäännöksestä saattaa esimerkiksi puuttua sanoja eikä lukija pysty arvaamaan, mikä puuttuva tieto on. Tällaiset tapaukset voivat olla sudenkuoppia erityisesti tilanteessa, joissa lähtötekstiä ei pääse tarkistamaan: käännös voi vaikuttaa täysin sujuvalta mutta olla merkitykseltään väärä.

– Jälkieditoinnissa normaaliin toimintatapaan kuitenkin kuuluu, että lähtöteksti on käytettävissä, Koponen huomauttaa.

Kaavamaiset tekstit ovat koneelle helpoimpia

Jo lähtötekstistä voi jossain määrin päätellä, kannattaako siitä tehdä raakakäännös konekääntimen avulla.

– Jos lähtöteksti on kovin vaihtelevaa ja luovaa, siinä on pitkiä virkkeitä ja jollain tavalla kuvaannollista kieltä, konekäännöksestä tuskin on hyötyä, Koponen arvioi.

– Konekäännöksestä on tyypillisesti hyötyä silloin, kun käännettävä teksti on rakenteellisesti suhteellisen yksinkertaista ja jollain tavalla “kaavamaista” tai itseään toistavaa.

Lisäksi parhaan tuloksen saavuttaminen edellyttää, että konekäännin on tarkoitettu tietyn tyyppisen tekstin, esimerkiksi laitteen käyttöohjeen, kääntämiseen. Tällöin tilastollisen kääntimen opetusaineistona on käytetty samantyyppisiä tekstejä, joissa esiintyy juuri haluttua terminologiaa ja ilmauksia, tai kääntimeen on yhdistetty sanasto, jossa on oikeat käännökset.

– Vapaasti kaikkien käytettävissä olevat yleiskääntimet kuten Google Translate eivät ole varsinaisesti jälkieditointikäyttöön tarkoitettuja, Koponen selittää.

Väitöstutkimuksen tuloksia voidaan hyödyntää lähtötekstien arvioinnissa sekä konekääntimien ja editointiprosessien kehittämisessä.

Suomessa ollaan jäljessä

Konekäännösten käyttö on viime vuosina yleistynyt, joskin Suomessa se on vielä vähäistä. Suomesta tai suomeen tehtävien konekäännösten laatu on selkeästi heikompaa kuin sellaisissa kielipareissa (esim. englanti-espanja), joissa jälkieditointia on hyödynnetty jo pitkään.

– Heikko laatu johtuu osittain suomen kielen rakenteista, erityisesti runsaasta taivutusmuotojen määrästä. Vaikeuksia aiheuttaa myös tilastollisten kääntimien tarvitseman ns. opetusaineiston eli sopivien kaksikielisten tekstien vähäinen määrä, Koponen selittää.

Kääntimien kaupalliseen kehittämiseen on ollut vain vähän kiinnostusta, koska Suomi on varsin pieni markkina-alue. Kehitystyötä kuitenkin tehdään täälläkin.

Lisätietoa


Screenshot Google Translate -palvelusta

Screenshot Google Translate -palvelusta

Esimerkki konekääntimen vakavasta virheestä

Yksi esimerkki Koposen aineistossa oli seuraava pätkä, jota yksikään koehenkilöistä ei pystynyt korjaamaan:

Lähtöteksti: “…even when people are given unlimited cheap or free calls, the number and length of calls does not increase significantly.”

Konekäännös: “… jopa silloin kun ihmisille soitetaan, ei kasva merkittävästi.”

Kontekstin perusteella jotkut olivat osanneet päätellä, että puuttuva osa (mikä ei kasva?) liittyisi puheluiden pituuteen tms. Yksikään ei kuitenkaan edes yrittänyt korjata kohtaa “ihmisille soitetaan”, jonka olisi siis pitänyt olla “ihmisille annetaan rajoittamaton määrä halpoja tai ilmaisia puheluita”, koska konekäännös näyttää siltä, että se voisi olla oikein.