Näin arvioit, maksaako konekäännöksen käyttö vaivan

Kaikki Google Translatea joskus kokeilleet tietävät, että sen tekemistä käännöksistä tulee välillä hölynpölyä.

Konekääntimet voivat kuitenkin olla hyödyllisiä apuvälineitä kääntäjille. Kone ei tosin hoida koko hommaa napin painalluksella vaan ammattikääntäjän työpanosta tarvitaan yhä: kone tuottaa lähtötekstistä raakakäännöksen, jonka kääntäjä sitten editoi esimerkiksi kunnon suomeksi. Jälkieditoinnin työläyteen vaikuttavat mm. konekäännökseen tehtyjen muutosten lukumäärä, virheiden tyyppi ja virkkeen pituus.

Konekäännösten jälkieditointia väitöskirjassaan tutkinut Maarit Koponen huomasi, että erityisen työläitä editoitavia olivat esimerkiksi sanajärjestykseen ja idiomeihin liittyvät virheet sekä tapaukset, joissa konekäännin on tulkinnut sanaluokan väärin – esimerkiksi muuttanut substantiivin “people” (ihmiset) verbiksi (kansoittaa).

Tutkimuksessa kävi ilmi, että tietyntyyppisten kielellisten virheiden korjaaminen on mahdollista, vaikka lähtötekstiä ei olisi nähtävänä. Tällaisia ovat esimerkiksi tapaukset, joissa sanan taivutusmuoto on väärin, mutta oikea muoto on helposti pääteltävissä.

Sellaiset virheet, jotka haittaavat tekstin merkityksen välittymistä, voivat puolestaan tehdä korjaamisesta mahdotonta. Konekäännöksestä saattaa esimerkiksi puuttua sanoja eikä lukija pysty arvaamaan, mikä puuttuva tieto on. Tällaiset tapaukset voivat olla sudenkuoppia erityisesti tilanteessa, joissa lähtötekstiä ei pääse tarkistamaan: käännös voi vaikuttaa täysin sujuvalta mutta olla merkitykseltään väärä.

– Jälkieditoinnissa normaaliin toimintatapaan kuitenkin kuuluu, että lähtöteksti on käytettävissä, Koponen huomauttaa.

Kaavamaiset tekstit ovat koneelle helpoimpia

Jo lähtötekstistä voi jossain määrin päätellä, kannattaako siitä tehdä raakakäännös konekääntimen avulla.

– Jos lähtöteksti on kovin vaihtelevaa ja luovaa, siinä on pitkiä virkkeitä ja jollain tavalla kuvaannollista kieltä, konekäännöksestä tuskin on hyötyä, Koponen arvioi.

– Konekäännöksestä on tyypillisesti hyötyä silloin, kun käännettävä teksti on rakenteellisesti suhteellisen yksinkertaista ja jollain tavalla “kaavamaista” tai itseään toistavaa.

Lisäksi parhaan tuloksen saavuttaminen edellyttää, että konekäännin on tarkoitettu tietyn tyyppisen tekstin, esimerkiksi laitteen käyttöohjeen, kääntämiseen. Tällöin tilastollisen kääntimen opetusaineistona on käytetty samantyyppisiä tekstejä, joissa esiintyy juuri haluttua terminologiaa ja ilmauksia, tai kääntimeen on yhdistetty sanasto, jossa on oikeat käännökset.

– Vapaasti kaikkien käytettävissä olevat yleiskääntimet kuten Google Translate eivät ole varsinaisesti jälkieditointikäyttöön tarkoitettuja, Koponen selittää.

Väitöstutkimuksen tuloksia voidaan hyödyntää lähtötekstien arvioinnissa sekä konekääntimien ja editointiprosessien kehittämisessä.

Suomessa ollaan jäljessä

Konekäännösten käyttö on viime vuosina yleistynyt, joskin Suomessa se on vielä vähäistä. Suomesta tai suomeen tehtävien konekäännösten laatu on selkeästi heikompaa kuin sellaisissa kielipareissa (esim. englanti-espanja), joissa jälkieditointia on hyödynnetty jo pitkään.

– Heikko laatu johtuu osittain suomen kielen rakenteista, erityisesti runsaasta taivutusmuotojen määrästä. Vaikeuksia aiheuttaa myös tilastollisten kääntimien tarvitseman ns. opetusaineiston eli sopivien kaksikielisten tekstien vähäinen määrä, Koponen selittää.

Kääntimien kaupalliseen kehittämiseen on ollut vain vähän kiinnostusta, koska Suomi on varsin pieni markkina-alue. Kehitystyötä kuitenkin tehdään täälläkin.

Lisätietoa


Screenshot Google Translate -palvelusta

Screenshot Google Translate -palvelusta

Esimerkki konekääntimen vakavasta virheestä

Yksi esimerkki Koposen aineistossa oli seuraava pätkä, jota yksikään koehenkilöistä ei pystynyt korjaamaan:

Lähtöteksti: “…even when people are given unlimited cheap or free calls, the number and length of calls does not increase significantly.”

Konekäännös: “… jopa silloin kun ihmisille soitetaan, ei kasva merkittävästi.”

Kontekstin perusteella jotkut olivat osanneet päätellä, että puuttuva osa (mikä ei kasva?) liittyisi puheluiden pituuteen tms. Yksikään ei kuitenkaan edes yrittänyt korjata kohtaa “ihmisille soitetaan”, jonka olisi siis pitänyt olla “ihmisille annetaan rajoittamaton määrä halpoja tai ilmaisia puheluita”, koska konekäännös näyttää siltä, että se voisi olla oikein.

 

Puhetta työstetään paloina

Miten ymmärrämme jatkuvaa puhevirtaa, vaikka työmuistimme kapasiteetti on pieni? Tätä selvitetään nyt lingvistien ja neurotutkijoiden yhteishankkeessa. Vastaus saattaa löytyä kielellisestä palastelusta.

Anna Mauranen toivoo, että tutkimushankkeen tulokset tuovat apua kielellisten häiriöiden diagnosointiin ja kielten oppimiseen. Kuva: Mika Federley

Anna Mauranen toivoo, että tutkimushankkeen tulokset tuovat apua kielellisten häiriöiden diagnosointiin ja kielten oppimiseen. Kuva: Mika Federley

Lue lisää hankkeesta humanistisen tiedekunnan verkkosivuilla

Perun intiaaninuorten kieltä ja identiteettiä tutkinut gradu palkittiin

Suomen kielitieteellinen yhdistys on myöntänyt gradupalkinnon espanjalaista filologiaa opiskelleen Tapio Keihään gradulle, joka luotasi kaksikielisten intiaaninuorten ajatuksia.

Perun Andeilla, Ayacuchon kaupungissa toimii nuorisojärjestö Ñuqanchik, jonka jäsenet määrittelevät itsensä ketšua-intiaaneiksi. Tapio Keihäs halusi selvittää gradussaan, miten järjestön kaksikieliset jäsenet kokevat sosiolingvistisen tilanteensa eli miten he käyttävät äidinkieliään suhteessa sosiaaliseen ympäristöönsä. Aihe on erityisen merkityksellinen siksi, että alkuperäiskansoihin ja -kieliin yhdistetään alueella kielteisiä asenteita.

Kartta: Google

Kartta: Google

– Peru on uskomattoman kaunis ja kulttuurisesti monikasvoinen maa, mutta samaan aikaan perulainen yhteiskunta on äärimmäisen syrjivä ja epätasa-arvoinen varsinkin alkuperäiskansojen näkökulmasta. Oli kuitenkin ihailtavaa havaita, että lannistumisen sijaan perulaiset ovat halukkaita tekemään valtavasti töitä paremman yhteiskunnan rakentamiseksi, Keihäs kertoo.

Vuorovaikutuksen kieli

Keihään haastattelemat nuoret – jopa ne, joiden äidinkieli on espanja – korostivat samastumistaan ketšuan kieleen. Myönteisiä asenteita alkuperäiskieltä kohtaan perusteltiin mm. kielen ilmaisuvoimaisuudella, monimerkityksisyydellä, yhteisöllisyydellä ja nostalgisuudella.

Suurin osa nuorista kertoi käyttävänsä ketšuaa lähinnä perhepiirissä ja sellaisten puhekumppanien kanssa, joihin he voivat luottaa. Erikoista oli se, että samalla kun varsinainen viestintä ketšuaksi vähenee jopa perhepiirissä, alkuperäiskieltä käytetään entistä enemmän vuorovaikutussuhteiden rakentamiseen: ketšuaksi mm. vitsaillaan, solvataan, flirttaillaan ja tervehditään.

Nuoret myönsivät, että heidän puheessaan esiintyy koodinvaihtoa eli espanjan ja ketšuan välillä hyppimistä sekä lainasanoja. Heidän asenteensa näitä ilmiöitä kohtaan olivat pääasiassa kielteisiä. Puhdaskielisyyden ideologia ei silti sulje pois pragmaattista näkökulmaa, jonka mukaan kieliä täytyy yhdistellä viestinnän helpottamiseksi.

Kuva: Tapio Keihäs

Kuva: Tapio Keihäs

Nuoret toivoivat ketšuan kielen elpyvän. He tunnustivat puhujien oman toiminnan merkityksen tässä prosessissa. Nuoret pitivät alkuperäiskielen käytön vähenemisen syynä ennen kaikkea identiteetin puutetta, ja ratkaisuna tähän tietoisuuden levittämistä.

– Kieli-identiteetin kannalta olennaisinta ei ole kielitaito vaan halu ja uskallus käyttää kieltä syrjinnästä riippumatta, Keihäs kuvailee.

Nuorten ryhmäidentiteetin keskeisimmät tekijät olivat alkuperään liittyvän häpeän voittaminen ja ympäröivää yhteiskuntaa suurempi tietoisuus ketšuan kielen merkityksestä.

– Olin yllättynyt siitä, miten vapaasti nuoret puhuivat minulle arkaluontoisistakin asioista kuten terrorismin ajan väkivallasta. Annoin haastateltaville melko vapaat kädet kertoa aiheista, joita he itse pitivät merkittävinä. Kuulin äärimmäisen kiehtovia – hauskoja sekä liikuttaviakin – tarinoita, Keihäs kertoo.

Kielen puhujan oma kokemus ratkaisee

Keihäs oli Limassa vaihdossa vuonna 2009. Sittemmin hän on palannut Peruun kaksi kertaa viettäen maassa yhteensä noin kaksi vuotta. Hän keräsi gradunsa aineiston keväällä 2013 suorittaessaan maisterivaiheen työharjoittelua Perun alkuperäiskansojen kulttuurien keskuksessa Chirapaqissa.

Vaihdossa ollessaan Keihäs havahtui siihen, että kielenvalintaa esimerkiksi ketšuan ja espanjan välillä ei määritä niinkään kielensisäiset tekijät vaan yhteiskunta ja ideologinen ympäristö, jossa kieliä käytetään.

– Tuntui järkyttävältä ajatella, että ihmiset eivät uskalla käyttää avoimesti omaa äidinkieltään pelätessään joutuvansa syrjinnän kohteeksi tai että yhteisen kielen puuttuessa espanjankieliset lapset eivät voi kommunikoida ketšuankielisten isovanhempiensa kanssa. Halusin tutkielman avulla korostaa sitä, että kielen puhujan omia kokemuksia ei pitäisi sivuuttaa tai vähätellä tutkittaessa kielenkäyttöä.

Teksti: Anni Aarinen.

***

Kuva: Tapio Keihäs

Kuva: Tapio Keihäs

Palkittua gradua esitellään 26.2.

Suomen kielitieteellisen yhdistyksen palkinto myönnettiin erityisen ansiokkaalle, kielitieteelliselle pro gradu -tutkimukselle. Tapio Keihään palkitun opinnäytteen nimi on suomeksi ¿Ser y hablar quechua? Intiaaninuorten omakohtainen näkemys Ayacuchon sosiolingvistisesta todellisuudesta – Ideologioita ja identiteettejä metakielellisessä diskurssissa. Hän pitää aiheesta esitelmän perjantaina 26.2.2016 klo 15.00 alkaen yhdistyksen vuosikokouksen yhteydessä Tieteiden talossa (sali 312, Kirkkokatu 6) Helsingissä.

Gradu on luettavissa sähköisesti

Kaksikieliset lapset oppivat oikean ääntämisen usein myöhemmin

Kaksikieliset, alle kouluikäiset lapset omaksuvat kahden kielen äänteitä pääasiassa myöhemmin kuin yksikieliset ikätoverinsa. Eroavaisuus näkyy myös ääntämisvirheiden määrässä ja luonteessa.

Olga Nenonen tutki väitöskirjassaan foneettista kielen kehittymistä alle kouluikäisillä lapsilla, jotka puhuvat kaksikielisinä suomea ja venäjää. Tutkimuksessa seurattiin kuuden lapsen foneettista kehitystä 2,5 vuoden ajanjaksolla. Lisäksi tehtiin 126 lapselle testi, jossa arvioitiin lasten artikulointia venäjäksi ja suomeksi.

Tulokset osoittavat, että kaksikieliset tekevät ääntämisessä osittain samoja virheitä kuin yksikieliset, mutta suuremmassa määrin ja myöhemmällä iällä.

– Lisäksi tutkimusaineistossa esiintyi merkittävä määrä kaksikielisten virheitä, jotka johtuvat venäjän ja suomen foneettisten järjestelmien eroavaisuuksista. Nämä virheet muistuttavat vieraan kielen opiskelijoiden ääntämisvirheitä, Nenonen kertoo.

Analyysi osoittaa, että foneettinen kehitys on nopeampaa ja helpompaa suomen kielessä kuin venäjässä.

– Venäjän vokaalijärjestelmä on suhteellisen yksinkertainen, joten se omaksutaan nopeammin kuin suomen vokaalijärjestelmä. Sen sijaan venäjän konsonanttijärjestelmä on hyvin monimutkainen ja se opitaan suomen konsonantteja hitaammin, Nenonen tarkentaa.

Kielispesifit foneettiset piirteet aiheuttavat eniten ongelmia sekä suomessa että venäjässä. Tutkimus osoittaa, että kaksikielisten foneettisessa kehityksessä kielet voivat vaikuttaa toisiinsa ja jopa häiritä toisiaan. Tätä kutsutaan foneettiseksi interferenssiksi. Ilmiö voi aiheuttaa venäläisen tai suomalaisen aksentin joillakin kaksikielisillä lapsilla. Tavallisesti aksentti kuitenkin hälvenee tai katoaa ajan mittaan.

FL Olga Nenonen väittelee 27.2.2016 kello 11 Helsingin yliopiston päärakennuksen salissa 5 (Fabianinkatu 33).

Selkokieli kuuluu kaikille

Suomessa on arviolta jopa 650 000 ihmistä, joilla on vaikeuksia yleiskielen ymmärtämisessä. Heidän arkeaan helpottaa selkokieli. Se on kielen muoto, jossa tekstin tai puheen sisältöä, sanastoa ja rakennetta mukautetaan niin, että asia on helpompi hahmottaa.

Suomalaista selkokieltä alettiin alun perin kehittää 1980-luvulla kehitysvammaisia varten. Sittemmin selkokielen käyttäjiksi on ryhtynyt myös mm. maahanmuuttajia ja ikäihmisiä, joilla on vaikeuksia lukea pitkiä tekstejä.

Selkokielen käyttäjäryhmät ovat keskenään hyvin erilaisia. Suomea vieraana kielenä opettelevan maahanmuuttajan kielitaito kehittyy harjoituksen myötä, jolloin selkokielen tarve yleensä vähenee. Muistisairailla tai niillä vanhuksilla, joilla kognitiiviset kyvyt heikkenevät, tarve on kasvava. Vammaisilla taas kyse voi olla pysyvästä tarpeesta.

Tärkeää on ymmärtää, ettei voida tietää, kuka tarvitsee selkokieltä huomenna.

– Aivoinfarkti tai jokin kognitiivinen sairaus voi iskeä kenen tahansa kohdalle, huomauttaa yliopistonlehtori Camilla Lindholm. Hän tutkii muistisairaiden ihmisten vuorovaikutusta.

Väestön ikääntyminen ja lisääntyvä maahanmuutto kasvattavat selkokielen kysyntää. Aihe on erityisen ajankohtainen nyt, kun Suomeen virtaa turvapaikanhakijoita.

– Turvapaikanhakijoiden suomen oppimisen kannalta olisi hyödyllistä, jos vastaanottokeskusten työntekijöillä olisi käsitys selkokielen periaatteista. Maahanmuuttajat oppivat kieltä käyttämällä sitä, joten heille kannattaa pyrkiä puhumaan selkeää suomea mieluummin kuin vaikkapa pelkkää englantia, ehdottaa vieraileva tutkija Ulla Vanhatalo.

Kirjallisuutta kaikille

Monivivahteiselle ja kimurantille kielellekin on paikkansa esimerkiksi kaunokirjallisuudessa. Tosin myös selkokieliselle kirjallisuudelle on kysyntää.

– Ruotsissa selkokielisen kirjallisuuden taustalla on demokraattinen ajatus siitä, että kaikilla pitää olla perusoikeus lukemiseen ja kirjallisuudesta nauttimiseen – myös niillä, joilla on lukemisen ja luetun ymmärtämisen kanssa haasteita, Lindholm kertoo.

Suomessakin on lukutukitoimintaa, jossa selkokielelle mukautettuja kirjoja luetaan ääneen esimerkiksi kehitysvammaisille.

Selkokirjallisuus on Suomessa selvästi marginaalissa, sillä kaupalliset kustantajat ja valtamedian kirjallisuusarvostelijat eivät ole kiinnostuneita siitä. Selkokeskus kuitenkin jakaa kirjoittajille, kustantajille ja kuvittajille valtion tukea, jonka avulla selkokirjoja julkaistaan sekä alkuperäisteoksina että mukautettuina versioina muusta kirjallisuudesta.

Selkokielen opettelu alkaa tietoisuudesta

Vaikka selkokieli on kirjallisesti kehitetty kielen muoto, monia sen periaatteista voi noudattaa myös puhutussa kielessä. Tärkeää on tietoisuuden lisääminen: maallikko, joka ei ole opiskellut kielitiedettä tai kieliaineita, ei välttämättä edes huomaa puhuvansa tarpeettoman mutkikkaasti.

– Tyypillistä on yrittää puhua korostetun hitaasti ja kovemmalla äänellä, jos keskustelussa toinen osapuoli ei ymmärrä. Todellisuudessa ymmärrysongelma voi kuitenkin johtua esimerkiksi monimutkaisesta lauserakenteesta, erikoisista sanavalinnoista tai liian epäsuorista ilmaisuista, Lindholm kuvailee. Hän on kirjoittanut hoitajaopiskelijoille ohjekirjan dementiapotilaiden vuorovaikutuksesta.

– Kirjakielessä on paljon puheelle vieraita rakenteita, jotka voivat vaikeuttaa ymmärtämistä. Lisäksi viranomainen saattaa alkaa luennoida sen sijaan, että puhuisi tavallisen keskustelun tapaan vuorotellen asiakkaan kanssa ja keskustelukumppanin tarpeista käsin, selittää Selkokeskuksen kehittämispäällikkö Leealaura Leskelä.

Selkokieli voisi ilahduttaa monia sellaisiakin ihmisiä, jotka eivät varsinaisesti ole sen kohderyhmää. Kukapa ei olisi joskus lukenut virkamiehen kirjoittamaa ohjeistusta tai kuunnellut pitkällistä selostusta ja toivonut, että saisi siitä käännöksen selkeälle suomelle?

Teksti: Anni Aarinen

Lue lisää: