Fonetiikka valmistautuu ”big dataan”

Fonetiikka tutkii puhetta. Eräs puheentutkimuksen erityispiirre on aineiston keräämisen ja jaottelun työläys. Tällä hetkellä fonetiikka valmistautuu ison datan läpimurtoon.

Foneettinen tutkimus painottuu puheeseen prosessina, sen tuottamiseen ja havaitsemiseen ja siihen, miten puhe välittyy.

– Fonetiikka voi olla tutkijoille väline, mutta se on myös itsenäinen tutkimusala. On tärkeää tutkia esimerkiksi, miten ihminen omaksuu puhetta, mitä puhuminen on konkreettisena toimintana ja miten se vaikuttaa kielten muotoutumiseen ja moninaisuuteen, selittää tutkija Mietta Lennes nykykielten laitokselta.

Fonetiikalla on paljon yhtymäkohtia muihin tieteenaloihin. Esimerkiksi fonetiikka ja logopedia hyötyvät toisistaan. Puheteknologian alueella foneettista tietoa tarvitaan esimerkiksi laadukkaan puhesynteesin eli keinotekoisen puheen tai automaattisen puheentunnistuksen kehittämiseen. Koska melkein kaikkia maailman kieliä puhutaan, fonetiikalla riittää työsarkaa myös kielitieteissä, esimerkiksi kielten ääntämisen ja murteiden tutkimuksessa.

Lenneksen oma väitöskirja on parhaillaan esitarkastusvaiheessa. Hän on tutkinut sitä, miten suomen sanojen ja esimerkiksi vokaalien ääntäminen vaihtelee vapaassa keskustelupuheessa.

Lennes pyysi kahtakymmentä ystäväparia juttelemaan vapaasti keskenään noin 45 minuutin ajan. Hän äänitti puheen, minkä jälkeen alkoi varsinainen työ. Lennes ja kourallinen fonetiikan opiskelijoita litteroivat, rajasivat ja luokittelivat materiaalia taukojen rajaamiin puhunnoksiin, sanoihin, tavuihin ja äänteisiin.

– Kone ei ymmärrä puhetta, joten äänitetystä raakamateriaalista ei vielä ole hyötyä. Jos materiaalia halutaan tarkemmin tutkia, se pitää annotoida ainakin osaksi käsin, jotta tutkittavat yksiköt tai ilmiöt ja niiden väliset suhteet voidaan paikallistaa, Lennes kertoo.

Puhekorpuksen eli aineiston valmistaminen oli Lenneksen kohdalla vuosien työ. Puheentutkijoilla aineiston keräämiseen ja jäsentelyyn saattaa kulua valtaosa tutkimushankkeen kokonaisajasta. Koska työtä on paljon, on tärkeää, että aineisto säilytetään ja jaetaan myös muille tutkijoille. Tätä tavoitetta edistää Suomessa FIN-CLARIN -hanke, jossa Lennes työskentelee projektisuunnittelijana. Myös Lenneksen käyttämä aineisto on tulossa saataville tutkimustarkoituksiin Kielipankin kautta.

Köydenvetoa määrän ja laadun välillä

Pelkän käsityön varassa tutkijat eivät enää nykyisin ole. On myös kehitetty automaattisia menetelmiä, jotka esimerkiksi tunnistavat puhesignaalista äänteitä ja sanoja tai kohdistavat litteroitua tekstiä äänitiedostojen vastaaviin kohtiin. Automaattiset työkalut eivät kuitenkaan pysty samaan kuin tutkija. Näin päästäänkin ”big datan” eli valtavien aineistomäärien problematiikkaan:

– Automaation käyttöön liittyy köydenvetoa: yhtäältä halutaan paljon dataa, jotta voidaan kehittää automaattisia menetelmiä. Toisaalta data voi olla sotkuista, jos ihminen ei ole sitä käsitellyt ja iso datamäärä pitää kuitenkin lopulta korjata käsin. Vaihtoehdot ovatkin, että joko otetaan pieni aineisto ja käydään se tarkkaan läpi käsin tai käydään laaja aineisto läpi automaattisesti ja hyväksytään, että siinä on virheitä.

– Jos dataa on todella paljon, koneen tuottamat virheet eivät ole enää aineiston käytön kannalta kohtalokkaita, Lennes kertoo.

Lenneksen tutkimus näyttää, miten monella tavalla äännämme vokaalit vapaassa puheessa. Kun Lennes soittaa tallenteelta satunnaisen joukon koehenkilöiden puheessa esiintyvien sanojen vokaaliäänteitä, on helppo huomata, miten paljon vokaalin ääntäminen käytännössä vaihtelee. Esimerkiksi puhekielen ni-sanan i-vokaali kuulostaa koehenkilöiden puheessa välillä e-vokaalilta tai jonkinlaiselta välimuodolta kahden tai useamman vokaalin välillä.

Väitöskirjassaan Lennes pyrkii ymmärtämään äänteiden variaatiota luonnollisessa puheessa ja vuorovaikutuksessa. Miten kuuntelija ymmärtää puhujaa? Miksi emme juuri koskaan sano sanaa kahta kertaa samalla tavalla? Kuinka on mahdollista, että kuulija silti tunnistaa nämä erilaiset tuotokset samaksi sanaksi?

– Ihmiset ovat aika taitavia ennustamaan, mitä toinen ihminen sanoo ja toisaalta puhuja tietää, mitä kuulija odottaa. Mitä yleisempi sana, sitä vähemmän sanan vokaaleja tarvitsee puheessa erotella, ja mitä harvinaisempi sana, sitä selvemmin se yleensä äännetään, tiivistää Lennes.

BB-talo tieteen nimessä

Big data tarkoittaa isoja määriä aineistoa, jonka keräämisen nykyteknologia mahdollistaa.

Kiinnostava esimerkki ison datan käytöstä fonetiikassa löytyy Yhdysvalloista. MIT-yliopiston tutkijaryhmä Deb Royn johdolla asensi Big Brother -tv-ohjelman tyyliin Royn kodin täyteen mikrofoneja ja videokameroita ja tallensi perheen arkea kolmen vuoden aikana 90 000 tuntia eli noin 8–10 tuntia päivässä. Tarkoitus oli tutkia kerätyn tietomäärän avulla, miten Royn lapsi oppi puhumaan. Ted talk -videolla voi kuulla puolen vuoden ajalta kaikki harjoituskerrat, joiden aikana Royn lapsi oppii sanomaan englannin sanan vesi ”water”.

Fonetiikan professori Martti Vainio uskoo, että Suomessa voitaisiin tehdä samantyyppisiä ison aineiston tutkimuksia suomalaisten lasten puheen oppimisesta.

– Tietenkin asiaan liittyy eettisiä ongelmia, kuten yksityisyyden suoja, jotka pitäisi ratkaista.

Vainion mielestä isoja aineistoja voitaisiin käyttää hyväksi myös esimerkiksi vieraan kielen oppimisen tutkimisessa kouluissa.

– Iso data tulee olemaan foneettisten teorioiden koekenttä. Jos tutkimuksen kehityksessä ei ole mukana, jää sen jalkoihin. Siksi on parempi olla suuren aallon edellä, Vainio toteaa.

Fonetiikkaa alakoululaisille

Professori Vainion mukaan fonetiikkaa pitäisi opettaa jo alakoululaisille.

– Fonetiikkaa pitäisi käsitellä äidinkielentunnilla. Fysiikan tunnilla oppilaille opetetaan atomi, samalla tavalla oppilaiden tulisi käsitteellisesti erottaa edes kirjain äänteestä.

Anna-Kaisa Mustaparta Opetushallituksesta ei tyrmää Vainion ajatusta vaan kutsuu tutkijat mukaan opetussuunnitelman uudistustyöhön.

Opetushallituksessa uudistetaan parhaillaan perusopetusta, mutta fonetiikkaa ei opetussuunnitelmassa juuri käsitellä mainintaa lukuun ottamatta. Mustaparta kertoo, että fonetiikan osalta minimioppimistavoite on se, että oppilas osaa peruskoulun käytyään katsoa sanakirjasta foneettisten aakkosten avulla, miten jokin sana äännetään.

Mustaparran mukaan kielenopiskelun tapoihin halutaan lisää vapautta.

– Kannustamme erilaisiin opetustapoihin. Ei ole esimerkiksi mitään pakollisia teemoja, joita tulisi käsitellä.

Helsingin yliopistolla järjestettiin 6.5.2014 seminaari puheen visualisoinnista ja sen suhteesta kielten opetukseen.

Teksti: Heta Muurinen

19 May: Interfaces between Language, Literature and Culture

What: a one-day symposium called Interfaces between Language, Literature and Culture:  Research at Department of Modern Languages

When: on Monday 19 May 2014 from 9:15 am to 5 pm.

Where: in Metsätalo (Unioninkatu 40), 3rd floor, Room 6

Metsätalo, photo by Eeva Anundi

Metsätalo, photo by Eeva Anundi

Department of Modern Languages has a broad array of research interests including language, translation, literature, culture and digital humanities, often in combination. In order to make the research done at the department better known both at University of Helsinki and beyond, we are arranging a one-day symposium.

Since the symposium is open to all, please feel free to attend the entire symposium or any session you might find interesting. Most talks are in English.

In order for us to know how much coffee and tea to have at hand at the coffee break in the afternoon, please register for coffee/tea by Thursday 8 May by using this link: https://elomake.helsinki.fi/lomakkeet/50841/lomake.html

Program

Opening

9:15–9:20 Bo Pettersson (chair), Opening Words

9:20–9:25  Ulla Tuomarla, Greetings from the Department Head

Plenary

 9:25–10:20 Timo Honkela: “Digital Preservation and Computational Modeling of Language and Culture: Some Philosophical and Empirical Aspects”

Variations of English: Major Projects

10:20–10:40 Terttu Nevalainen, “What’s New in Varieng (Research Unit for Variation, Contacts and Change in English)”

10:40–11:00 Minna Palander-Collin, “Language Practices and Social Meanings in the History of English”

11:00–11:20 Minna Nevala, “Language of Evaluation: Constructing the Social Margins in England 1650–1900”

11:20–11:40 Sanna-Kaisa Tanskanen, ”Kielitaidon tasot: Edistyneiden kielenoppijoiden suullinen ja kirjallinen kielitaito”

11:40–11:50 Anna Mauranen, “ChangE Project: How does ELF change English?”

LUNCH BREAK

11:50–13:00 (lunch is not included in the event)

Language, Culture and Style

13:00–13:20 Eva Havu, “Presentation of the Research Community CoCoLaC (Contrasting and Comparing Languages and Cultures)”

13:20–13:35 Juhani Härmä, “Studying 19th-Century Finnish Letters Written in French”

Translation in Various Languages and Media

13:35–13:50 Svetlana Probirskaja ja Päivi Pasanen, ”Sodankäynnin tuntemattomat käännöskulttuurit”

13:50–14:05 Kristiina Taivalkoski-Shilov, ”Sexe=sukupuoli, sukupuolisuus ja/tai/vai seksi? Kaisa Siveniuksen Foucault-suomennoksen vastaanotosta”

14:05–14:20 Olli Philippe Lautenbacher, “Cohesive Structures (and Redundancy) in Subtitled Films”

COFFEE BREAK

14:20–14:45 (Please remember to register so we can prepare the right amount of coffee and tea.)

Literary Studies: Russians and Foxes, Native Americans and Shakespeare

14:45–15:00 Tomi Huttunen, “Research in Russian Literature and Culture”

15:00–15:15 Bo Pettersson, “What Does the Fox Say?”

15:15–15:30 Mark Shackleton, “Native North American Writing”

15:30–15:45 Nely Keinänen, “Shakespeare in Finland”

Computers, Language, Culture

15:45–16:05 Krister Lindén, “FIN-CLARIN (Common Language Resources and Technology Infrastructure): A Research Infrastructure for the Arts”

16:05–16:20 Graham Wilcock, “WikiTalk: Wikipedia-Based Open-Domain Conversations with Humanoid Robots”

16:20–16:35 Georg Gimpl, “Culture, History and Collective Memory: Virtual Museum Russbach – A Microstudy”

Discussion and closing of the symposium

Tiedon louhija iskee kieliaineistoihin

Timo Honkelan haastattelu Kansalliskirjastossa

Timo Honkelan haastattelu Kansalliskirjastossa

“Valtaosa insinöörien perinteisistä mallinnuksen kohteista on lasten leikkiä siihen verrattuna, mitä kieli ja sen kielen oppiminen on”, väittää tuore digitaalisten aineistojen tutkimuksen professori Timo Honkela Kansalliskirjasto-lehden haastattelussa. Honkela aloitti tehtävässään nykykielten laitoksella 1.1.2014.

Onko tiedonlouhinnasta tunteiden tulkiksi tai yhteiskunnallisen analyysin tekijäksi? Lue Honkelan haastattelu verkkolehdessä: http://issuu.com/kansalliskirjasto/docs/kk_1-2014_digi/8

Kuuntele myös Timo Honkelan haastattelu Yle Radio 1:llä

The story in English: Making the most of digital materials: Interview with Professor Timo Honkela

FIN-CLARIN jatkaa tutkimusinfrastruktuurien tiekartalla 2014–2020

Nykykielten laitoksen johtama FIN-CLARIN -hanke on valittu mukaan Suomen Akatemian tutkimusinfrastruktuurien tiekartalle, joka koskee vuosia 2014–2020. FIN-CLARIN on osa eurooppalaista CLARIN-yhteistyötä, joka pyrkii luomaan kieliaineistoille ja kieliteknologialle yhteistä infrastruktuuria. Se oli mukana jo vuoden 2009 kansallisella tutkimusinfrastruktuurien tiekartalla.

CLARIN-hankkeen toimintaa Suomessa johdetaan nykykielten laitokselta käsin. CLARIN on laajin humanistinen tieteellinen infrastruktuuri Suomessa.

5 miljardia sanaa suomea

FIN-CLARIN:illa on kaksi keskitettyä palvelua: Kielipankki ja Tieteen termipankki.

Kielipankki tuo tutkijoiden käyttöön laajat digitaaliset kielivara- ja kielityökalukokoelmat. Sen kautta voi hakea virkkeitä viiden miljardin sanan suomenkielen korpuksesta. Mukana on myös kolme miljardia sanaa suomenruotsia.

Tieteen kansallinen termipankki -hanke tähtää pysyvään ja jatkuvasti päivitettävään, kaikki tieteenalat kattavaan tieteen termistöön. Tieteen termipankki on avoimesti Internetissä saatavilla oleva yhteistyöalusta ja verkkopalvelu. Tällä hetkellä se käsittää 24 000 termiä.

Tutkimusinfrastruktuurit vahvistavat osaamista

Suomen Akatemia on julkaissut Suomen ensimmäisen tutkimusinfrastruktuurien strategian sekä päivitetyn tiekartan vuosille 2014–2020. Päivitetylle tiekartalle kuuluu 31 kansallista tutkimusinfrastruktuuria. Näistä seitsemän toimii yhteiskuntatieteiden ja humanististen tieteiden alalla.

Tutkimusinfrastruktuureilla tarkoitetaan tutkimusvälineitä, laitteistoja, aineistoja ja palveluita, jotka

  • mahdollistavat innovaatiotoiminnan eri vaiheissa tapahtuvan tutkimus- ja kehitystyön ja
  • tukevat järjestäytynyttä tutkimustyötä, tutkijankoulutusta ja opetusta sekä
  • kehittävät tutkimus- ja innovaatiokapasiteettia.

Tiekartalle valittujen infrastruktuurien odotetaan vahvistavan Suomen kansainvälistä tutkimusosaamista ja huippuosaamisen verkostoja sekä tuottavan yritysideoita ja työpaikkoja.

Väitös paljastaa, miksi lain koura kuristaa yhä

Marianna Hintikka Kuva: Nykykielten laitos

Kielessä on runsaasti jäänteitä maailmankuvasta, jossa ruumiinosille ja sairauksille löytyivät vastineet yhteiskunnasta. Tämän takia esimerkiksi valtiolla on monessa kielessä pää, jonka päätöksenteko voi halvaantua. Marianna Hintikka puolustaa englantilaisen filologian väitöskirjaansa lauantaina 30.11. Helsingin yliopistossa.

Tutkimuksessa Hintikka selvitti englanninkielisten tekstiaineistojen avulla, miten kielikuvat ihmisruumiista ovat muuttuneet 1400-luvulta tähän päivään. Monipuolinen aineisto sisältää sanomalehtiä, kaunokirjallisuutta ja pamfletteja.

Yksi asia kielenkäytössä ei ole muuttunut puolessa vuosituhannessa.

– Ääriliikkeissä kieltä käytetään poliittisena kirurgiana aivan samoin kuin 1400-luvulla. Tyypillinen esimerkki on, että jokin ihmisryhmä kuvataan kasvaimena, joka pitää leikata pois, Hintikka sanoo.

Tutkimus osoittaa, että ihmisruumiista ammentavia metaforia ja kielikuvia käytetään nykyisin aiempaa harvemmin. Metaforat eivät kuitenkaan ole kadonneet, ja niiden kirjo on itse asiassa lisääntynyt.

Aineisto osoittaa, että yhteiskuntaan liittyvät kielikuvat ovat vähentyneet samaan aikaan, kun niiden käyttö on muuttunut tarkoitukselliseksi tehokeinoksi, joiden tarkoitus on herättää tunnetta.

Nykykielessä mieleen viittaavat metaforat ovat yleistyneet. Monet niistä ovat niin arkisia, että niitä on vaikea edes mieltää vertauskuviksi.

I can see what you think on tästä yksinkertainen esimerkki, Hintikka sanoo.

Lisätiedot:
Marianna Hintikka,
044  970 7295
marianna.hintikka@helsinki.fi

FM Marianna Hintikka väittelee lauantaina 30.11.2013 kello 10.15 Helsingin yliopiston humanistisessa tiedekunnassa aiheesta “The well-being of the body as metaphor for society and mind – A corpus-based comparison of Early Modern and Present-day English”. Väitöstilaisuus järjestetään Päärakennuksessa, auditorio XII, Unioninkatu 34.

Vastaväittäjänä on professori Alice Deignan, University of Leeds ja kustoksena professori Minna Palander-Collin.

Väitöskirjan tiivistelmä on luettavissa E-thesis -palvelussa