Ensimmäiset selkokieliset aineistot Kielipankkiin

Selkokielen tutkimuksessa alkoi uusi aikakausi huhtikuussa, kun Selkosanomat saatiin Kielipankkiin ensimmäisenä selkokielisenä aineistona. Korpuksen täydentäminen on osa Helsingin yliopiston ja Selkokeskuksen yhteistyötä, jolle suunnitellaan jatkoa erilaisina hankkeina.

Selkokeskuksen ja Helsingin yliopiston nykykielten ja norsu-laitosten yhteistyöstä keskusteltiin yliopistolla 24.2.2016.

Keskustelussa todettiin selkokielen tutkimuksen voimakkaasti lisääntynyt tarve. Mahdollisia tutkimusaiheita on runsaasti liittyen esimerkiksi ymmärrettävyyteen, rakenteisiin, sanastoon ja kielensisäiseen kääntämiseen ja tulkkaukseen. Myös taustakysymyksissä on selvitettävää: missä menevät rajat selkokielen, selkeän kielen ja normaalin yleiskielen välillä?

Etenkin psykolingvisestä näkökulmasta kiinnostuneiden kannattaa olla yhteydessä Tiina Onikki-Rantajääsköön. Hän on luvannut auttaa myös suomen kielen rakenteisiin ja merkitysjäsennykseen liittyvissä kysymyksissä selkokielen tutkimisen ja tutkielmien ohjaamisen kannalta.

Myös opiskelijoita kannustetaan tarttumaan selkokieleen liittyviin tutkimusaiheisiin. Suomen kielen osalta lisätietoja saa kevään 2017 proseminaaria vetävältä Minna Jaakolalta.

Työelämäopintoihin on suunnitteilla selkokielelle mukauttamisen kurssi, jonka ajankohdasta on tulossa tietoa myöhemmin. Lisätietoja Johanna Kompalta tai Selkokeskuksen yhdyshenkilöltä Eliisa Uotilalta. Johanna Komppa osaa kertoa lisää myös selkokielisen materiaalin tarkastelusta kielenoppimisen näkökulmasta.

Lisää yhteystietoja saa Selkokielen neuvottelukunnan Helsingin yliopiston edustajilta Camilla Lindholmilta ja Ulla Vanhatalolta.

Lue lisää: Saksa johtaa nyt selkokielen tutkimusta

Teksti: Ulla Vanhatalo

Kielipankissa: Päivi Pasanen

Millaisia ovat ilmaukset, joita tavalliset kielenkäyttäjät nimittävät termeiksi ja millaisia ovat näiden ilmausten takana olevat käsitteet? Kielipankista löytyy yli 60 kielen eri tavoin jäsennettyjä teksti- ja puheaineistoja. Venäjän kääntämisen yliopistonlehtori Päivi Pasanen kertoo humanistisen tiedekunnan verkkosivuilla Kielipankin HS.fi-aineistoa koskevasta tutkimuksestaan.

Pääsy julkisiin palveluihin yli kielimuurien – automaattinen käännösalusta julkaistu

Euroopan kielten päivänä 26.9.2015 Euroopan komissio alkaa tukea kansalaisille ja yrityksille suunnattujen julkisten palvelujen toimintaa yli kielirajojen Eurooppaa yhdistävällä automaattisella käännösalustalla.

Käännösalusta (The Automated Translation platform of Connecting Europe Facility, CEF.AT) helpottaa monikielistä viestintää sekä asiakirjojen ja muun kielellisen sisällön vaihtoa Euroopassa sekä kansallisten julkishallintojen että hallintoelinten ja EU:n kansalaisten ja yritysten välillä. Käännösalusta vastaa moniin julkishallinnon tarpeisiin koskien kuluttajien oikeuksia, terveydenhuoltoa, julkisia hankintoja, sosiaaliturvaa, kulttuuria ja muita aloja.

Toistaiseksi useimmille eurooppalaisille kielille ei ole ollut saatavilla asianmukaista kieliteknologista tukea. Euroopan vaalima kielellinen monimuotoisuus voikin muuttua esteeksi tilanteissa, joissa se vaikeuttaa tietojen vaihtamista tai estää tasapuolisen pääsyn julkisiin palveluihin, liiketoiminta- tai työmahdollisuuksiin ja tukipalveluihin.

Lue koko juttu Kielipankin verkkosivuilla

Fonetiikka valmistautuu ”big dataan”

Fonetiikka tutkii puhetta. Eräs puheentutkimuksen erityispiirre on aineiston keräämisen ja jaottelun työläys. Tällä hetkellä fonetiikka valmistautuu ison datan läpimurtoon.

Foneettinen tutkimus painottuu puheeseen prosessina, sen tuottamiseen ja havaitsemiseen ja siihen, miten puhe välittyy.

– Fonetiikka voi olla tutkijoille väline, mutta se on myös itsenäinen tutkimusala. On tärkeää tutkia esimerkiksi, miten ihminen omaksuu puhetta, mitä puhuminen on konkreettisena toimintana ja miten se vaikuttaa kielten muotoutumiseen ja moninaisuuteen, selittää tutkija Mietta Lennes nykykielten laitokselta.

Fonetiikalla on paljon yhtymäkohtia muihin tieteenaloihin. Esimerkiksi fonetiikka ja logopedia hyötyvät toisistaan. Puheteknologian alueella foneettista tietoa tarvitaan esimerkiksi laadukkaan puhesynteesin eli keinotekoisen puheen tai automaattisen puheentunnistuksen kehittämiseen. Koska melkein kaikkia maailman kieliä puhutaan, fonetiikalla riittää työsarkaa myös kielitieteissä, esimerkiksi kielten ääntämisen ja murteiden tutkimuksessa.

Lenneksen oma väitöskirja on parhaillaan esitarkastusvaiheessa. Hän on tutkinut sitä, miten suomen sanojen ja esimerkiksi vokaalien ääntäminen vaihtelee vapaassa keskustelupuheessa.

Lennes pyysi kahtakymmentä ystäväparia juttelemaan vapaasti keskenään noin 45 minuutin ajan. Hän äänitti puheen, minkä jälkeen alkoi varsinainen työ. Lennes ja kourallinen fonetiikan opiskelijoita litteroivat, rajasivat ja luokittelivat materiaalia taukojen rajaamiin puhunnoksiin, sanoihin, tavuihin ja äänteisiin.

– Kone ei ymmärrä puhetta, joten äänitetystä raakamateriaalista ei vielä ole hyötyä. Jos materiaalia halutaan tarkemmin tutkia, se pitää annotoida ainakin osaksi käsin, jotta tutkittavat yksiköt tai ilmiöt ja niiden väliset suhteet voidaan paikallistaa, Lennes kertoo.

Puhekorpuksen eli aineiston valmistaminen oli Lenneksen kohdalla vuosien työ. Puheentutkijoilla aineiston keräämiseen ja jäsentelyyn saattaa kulua valtaosa tutkimushankkeen kokonaisajasta. Koska työtä on paljon, on tärkeää, että aineisto säilytetään ja jaetaan myös muille tutkijoille. Tätä tavoitetta edistää Suomessa FIN-CLARIN -hanke, jossa Lennes työskentelee projektisuunnittelijana. Myös Lenneksen käyttämä aineisto on tulossa saataville tutkimustarkoituksiin Kielipankin kautta.

Köydenvetoa määrän ja laadun välillä

Pelkän käsityön varassa tutkijat eivät enää nykyisin ole. On myös kehitetty automaattisia menetelmiä, jotka esimerkiksi tunnistavat puhesignaalista äänteitä ja sanoja tai kohdistavat litteroitua tekstiä äänitiedostojen vastaaviin kohtiin. Automaattiset työkalut eivät kuitenkaan pysty samaan kuin tutkija. Näin päästäänkin ”big datan” eli valtavien aineistomäärien problematiikkaan:

– Automaation käyttöön liittyy köydenvetoa: yhtäältä halutaan paljon dataa, jotta voidaan kehittää automaattisia menetelmiä. Toisaalta data voi olla sotkuista, jos ihminen ei ole sitä käsitellyt ja iso datamäärä pitää kuitenkin lopulta korjata käsin. Vaihtoehdot ovatkin, että joko otetaan pieni aineisto ja käydään se tarkkaan läpi käsin tai käydään laaja aineisto läpi automaattisesti ja hyväksytään, että siinä on virheitä.

– Jos dataa on todella paljon, koneen tuottamat virheet eivät ole enää aineiston käytön kannalta kohtalokkaita, Lennes kertoo.

Lenneksen tutkimus näyttää, miten monella tavalla äännämme vokaalit vapaassa puheessa. Kun Lennes soittaa tallenteelta satunnaisen joukon koehenkilöiden puheessa esiintyvien sanojen vokaaliäänteitä, on helppo huomata, miten paljon vokaalin ääntäminen käytännössä vaihtelee. Esimerkiksi puhekielen ni-sanan i-vokaali kuulostaa koehenkilöiden puheessa välillä e-vokaalilta tai jonkinlaiselta välimuodolta kahden tai useamman vokaalin välillä.

Väitöskirjassaan Lennes pyrkii ymmärtämään äänteiden variaatiota luonnollisessa puheessa ja vuorovaikutuksessa. Miten kuuntelija ymmärtää puhujaa? Miksi emme juuri koskaan sano sanaa kahta kertaa samalla tavalla? Kuinka on mahdollista, että kuulija silti tunnistaa nämä erilaiset tuotokset samaksi sanaksi?

– Ihmiset ovat aika taitavia ennustamaan, mitä toinen ihminen sanoo ja toisaalta puhuja tietää, mitä kuulija odottaa. Mitä yleisempi sana, sitä vähemmän sanan vokaaleja tarvitsee puheessa erotella, ja mitä harvinaisempi sana, sitä selvemmin se yleensä äännetään, tiivistää Lennes.

BB-talo tieteen nimessä

Big data tarkoittaa isoja määriä aineistoa, jonka keräämisen nykyteknologia mahdollistaa.

Kiinnostava esimerkki ison datan käytöstä fonetiikassa löytyy Yhdysvalloista. MIT-yliopiston tutkijaryhmä Deb Royn johdolla asensi Big Brother -tv-ohjelman tyyliin Royn kodin täyteen mikrofoneja ja videokameroita ja tallensi perheen arkea kolmen vuoden aikana 90 000 tuntia eli noin 8–10 tuntia päivässä. Tarkoitus oli tutkia kerätyn tietomäärän avulla, miten Royn lapsi oppi puhumaan. Ted talk -videolla voi kuulla puolen vuoden ajalta kaikki harjoituskerrat, joiden aikana Royn lapsi oppii sanomaan englannin sanan vesi ”water”.

Fonetiikan professori Martti Vainio uskoo, että Suomessa voitaisiin tehdä samantyyppisiä ison aineiston tutkimuksia suomalaisten lasten puheen oppimisesta.

– Tietenkin asiaan liittyy eettisiä ongelmia, kuten yksityisyyden suoja, jotka pitäisi ratkaista.

Vainion mielestä isoja aineistoja voitaisiin käyttää hyväksi myös esimerkiksi vieraan kielen oppimisen tutkimisessa kouluissa.

– Iso data tulee olemaan foneettisten teorioiden koekenttä. Jos tutkimuksen kehityksessä ei ole mukana, jää sen jalkoihin. Siksi on parempi olla suuren aallon edellä, Vainio toteaa.

Fonetiikkaa alakoululaisille

Professori Vainion mukaan fonetiikkaa pitäisi opettaa jo alakoululaisille.

– Fonetiikkaa pitäisi käsitellä äidinkielentunnilla. Fysiikan tunnilla oppilaille opetetaan atomi, samalla tavalla oppilaiden tulisi käsitteellisesti erottaa edes kirjain äänteestä.

Anna-Kaisa Mustaparta Opetushallituksesta ei tyrmää Vainion ajatusta vaan kutsuu tutkijat mukaan opetussuunnitelman uudistustyöhön.

Opetushallituksessa uudistetaan parhaillaan perusopetusta, mutta fonetiikkaa ei opetussuunnitelmassa juuri käsitellä mainintaa lukuun ottamatta. Mustaparta kertoo, että fonetiikan osalta minimioppimistavoite on se, että oppilas osaa peruskoulun käytyään katsoa sanakirjasta foneettisten aakkosten avulla, miten jokin sana äännetään.

Mustaparran mukaan kielenopiskelun tapoihin halutaan lisää vapautta.

– Kannustamme erilaisiin opetustapoihin. Ei ole esimerkiksi mitään pakollisia teemoja, joita tulisi käsitellä.

Helsingin yliopistolla järjestettiin 6.5.2014 seminaari puheen visualisoinnista ja sen suhteesta kielten opetukseen.

Teksti: Heta Muurinen