Puhetta työstetään paloina

Miten ymmärrämme jatkuvaa puhevirtaa, vaikka työmuistimme kapasiteetti on pieni? Tätä selvitetään nyt lingvistien ja neurotutkijoiden yhteishankkeessa. Vastaus saattaa löytyä kielellisestä palastelusta.

Anna Mauranen toivoo, että tutkimushankkeen tulokset tuovat apua kielellisten häiriöiden diagnosointiin ja kielten oppimiseen. Kuva: Mika Federley

Anna Mauranen toivoo, että tutkimushankkeen tulokset tuovat apua kielellisten häiriöiden diagnosointiin ja kielten oppimiseen. Kuva: Mika Federley

Lue lisää hankkeesta humanistisen tiedekunnan verkkosivuilla

Koneen Säätiö myönsi apurahoja nykykielten laitoksen tutkijoille

Koneen Säätiön apurahojen saajat julkaistiin 8.12.2015. Seuraavissa rahoitusta saaneissa hankkeissa on mukana nykykielten laitoksen tutkijoita.

Suomalais-ugrilaiset kielet ja internet

FT Krister Lindén ja työryhmä, 79 120 € (jatkoapuraha)

Hankkeessa rakennetaan prototyyppi automaattisesta järjestelmästä, joka verkkoharavointia käyttäen kerää ja ylläpitää linkkisivustoa pienillä suomalais-ugrilaisilla kielillä toteutetuille sivustoille. Järjestelmän avulla luodaan löydettyjen sivustojen teksteistä lisäksi virke-, lause- ja sanakorpuksia näille kielille. Julkaistut korpukset tulevat toimimaan lähdeaineistona kielentutkijoille. Hankkeen osana tuotetaan kielentunnistin, jolla internetistä löydettyjen sivujen kieli pystytään tunnistamaan. Lisäksi työ dokumentoidaan tieteellisesti väitöskirjassa kielen automaattisesta tunnistamisesta. Osana tutkimustyötä tuotetaan rakennettavan järjestelmän avulla myös tilastotietoa pienten suomalais-ugrilaisten kielten levinneisyydestä internetissä. Hanke toteutetaan osana kansainvälistä CLARIN-yhteistyötä, jota suomessa edustaa FIN-CLARIN-konsortio.

Projektin aikana kehitetään maailman huippuluokkaa oleva tekstin kielentunnistin, joka kykenee tunnistamaan myös suurinta osaa suomalais-ugrilaisista kielistä. Hankkeen tuottama tilastotieto pienten suomalais-ugrilaisten kielten levinneisyydestä Venäjän alueen internetissä on erittäin ajankohtaista. Sieltä saatava tekstiaineisto on myös tärkeä saada talteen tulevaisuutta varten.

Kielen säätely yliopistomaailmassa – englannin käytön vaihtelevat normit

FT, dosentti Anna Solin ja työryhmä, 75 325 € (jatkoapuraha)

Hankkeessa tutkitaan kielen säätelyä yliopistomaailmassa erityisesti englannin kielen näkökulmasta. Kielen säätely ilmenee monissa eri muodossa: säätelyä on niin toisen puheen tai tekstin korjaaminen kuin kielenkäyttöoppaiden tai kielipoliittisten linjausten julkaiseminen. Hanke tutkii säätelyä erilaisten englannin käyttäjien ja englannin käytön normittajien näkökulmasta. Tutkittavana ovat muun muassa englanniksi kirjoittavat tutkijat ja tiedottajat sekä englanniksi luennoivat opettajat. Hankkeessa tarkastellaan myös yliopistohallinnon käytäntöjä, kuten yliopistojen virallisia kieliperiaatteita ja keskitettyjen kielipalvelujen toimintaa. Keskeisiä tutkimuskysymyksiä ovat, missä tilanteissa ja tekstilajeissa englannin käyttöä säädellään, ketkä toimivat kielellisinä auktoriteetteina ja millaisia näkemyksiä erilaiset akateemiset toimijat ilmaisevat englannin kielen roolista ja käytöstä.

Valtaosa yliopistojen kielipolitiikkaa koskevista tutkimuksista ja julkisesta keskustelusta liikkuu makrotasolla: puhutaan eri kielten asemasta korkeakouluissa, englannin ’imperialismista’, kielenkäytön rapistumisesta. Hankkeemme tavoitteena on tuoda esiin ruohonjuuritason toimijoiden ääni. Mitä ja miten geologi kirjoittaa englanniksi? Korjataanko nettisivujen kieliasu samoin kuin tutkimusartikkelin? Saako englanniksi luennoiva suomalainen kuulostaa suomalaiselta? Kuka tästä kaikesta päättää?

Kielensisäisen tekstityksen kehittäminen

Professori Mikko Kurimo ja työryhmä (HY:ltä mukana Prof. Liisa Tiittula ja tohtorikoulutettava, FM Minna Pöntys), 55 810 €

Automaattisen puheentunnistuksen avulla saavat kuulovammaiset, huonokuuloiset ja suomea opiskelevat puheen lähes viiveettä nähtäville tukemaan kuuntelua. Tässä hankkeessa on tarkoitus saattaa Suomessa automaattinen puheentunnistuksen tutkimuksen parissa tehtävä tutkimustyö hyödyttämään suurta joukkoa, lähes miljoonaa suomalaista, joille puhuttu kielenmuoto ei ole helposti saavutettavissa. Puheentunnistukseen perustuvaa tekstitystä kehitetään niin, että se on käytettävissä esimerkiksi luennoilla, television suorissa lähetyksissä ja teatterissa. Hankkeessa tutkitaan kielensisäisen tekstityksen saavutettavuutta ja automaattisen puheentunnistuksen menetelmiä, joilla olisi mahdollista tuottaa parempaa reaaliaikaista tekstitystä. Tekstityksen tutkimuksessa pääpaino on vastaanottajan näkökulmassa. Tutkimme sitä, millaista tekstin tulisi olla, jotta se on puheen seuraamisen kannalta ymmärrettävää ja riittävää.

Työ toteutetaan Aalto-yliopiston puheentunnistustutkijoiden ja Helsingin yliopiston tekstitystutkijoiden ja Humakin saavutettavuustutkijoiden monitieteisenä hankkeena. Hankkeessa kehitetään Aalto-yliopiston puheentunnistimesta automaattista ja puoliautomaattista tekstitystä tukevia tekstitystyökalun koeversioita, joiden avulla määritetään vastaanottajan kannalta oleelliset puheentunnistuksen kehitystarpeet. Hanke on kolmivuotinen ja siinä tuotetaan käyttäjiä varten vuosittain uudet parannetut koeversiot tekstitystyökalusta.

Puheentunnistuksen valtavirta tutkii vain väärintunnistettujen sanojen lukumäärän minimointia ja vain muutamaa valtakieltä. Kaikki sanat tai sanojen tunnistusvirheet kuitenkaan ole sisällön ymmärtämisen kannalta samanarvoisia. Tämä ristiriita korostuu erityisesti morfologisesti rikkaissa kielissä, joita ovat mm. suomalaisugrilaiset kielet. Tällöin automaattiseen puheentunnistukseen perustuva tekstitys vaatii valtavirrasta poikkeavien puheentunnistusmenetelmien kehittämistä.

375 humanistia: Antti Summala

Vaihto-opiskelijana Osakassa Summala pääsi tutustumaan kalligrafiaan.

Vaihto-opiskelijana Osakassa Summala pääsi tutustumaan kalligrafiaan.

Antti Summala on pelejä tekevä filologi. Englannin kielen laitoksella hioutuneet kirjoitustaidot veivät ensin pelitoimittajaksi ja sitten pelisuunnittelijaksi. Helsingin yliopistolla syntyi myös kiinnostus järjestötoimintaan ja japanin kieleen.

Tutustu Antti Summalaan 375 humanistia -verkkosivuilla

Helsingin yliopiston 375-vuotisjuhlavuoden kunniaksi humanistinen tiedekunta nostaa esiin 375 humanistia. Sivustolla esiteltävät henkilöt avaavat näkymää humanistisen alan yhteiskunnalliseen ja kulttuuriseen merkitykseen sekä tarjoavat esimerkkejä humanistien laaja-alaisesta osaamisesta.

The Criminalized Poor and the Rise of Mega-Corpora

The poor have been degraded and criminalized in texts of all genres throughout the ages through denigrating adjectives and descriptives. Professor Tony McEnery from Lancaster University provides us with a unique and chilling view on how linguistic changes portray the changing treatment of the poor during the 17th century.

Tony McEnery. Photo: Tanja Säily.

Tony McEnery. Photo: Tanja Säily.

Criminalizing the Poor in the 17th Century

In October 19-22, the Research Unit for Variation, Contacts and Change in English (VARIENG) organized the D2E – From data to evidence conference, gathering scholars from the fields of English language studies to discuss how big data, rich data, and uncharted data can affect, enhance, or hinder linguistic research.

The first plenary of the conference was given by Professor Tony McEnery, speaking on the use of corpora in socioeconomic studies of the treatment of the poor through a linguistic lens. Professor McEnery’s speech provides a fascinated view on how large corpora can be used to provide a sociolinguistic approach both on the use of derogative terminology and the changes that happen decade by decade.

McEnery’s team explored over a billion words of writing from the 17th century through the Early English Books Online (EEBO) corpus, which includes nearly every piece of literature printed in the UK, Ireland and British North America from the 15th to the 18th century. The team identified the most common words used to identify the poor, examining their use in the texts to uncover patterns of meaning denoting the linguistic socio-economical treatment of the poor during the 17th century.

McEnery provides an enticing case by examining the evolution of terms such as rogue, beggar, vagrant, and vagabond in the 17th century, as well as the language associated with the words. The study paints an interesting image of how literary and religious texts treated the terms and which modifiers were used with them.

Beggar, for example, was typically modified by adjectives denoting the understanding of their poverty, such as poor, needy and miserable. There are few negative denotations in the beginning of the 17th century – until this changed sharply during the second decade, when the word sturdy became to be commonly attached to beggar to portray them as able-bodied people who choose to not work but beg. Likewise, drunkenness starts to be attached to them in the 1620s. Similarly, vagabonds were associated with negative modifiers or close-proximity words such as vile, loose, and whore, and rogues with close association to cheating, lying, and villain.

McEnery’s results demonstrate the prejudices felt against the poor in our societies across the ages, providing us with an unsettlingly clear map on the frequency, dispersion, and connectivity of negative vocabulary used to create the negative semiotics of poverty, mapping the changes decade by decade through the 17th century.

Mega-corpora methodologies

In recent years, the evolution of corpora have provided scholars with unprecedented access to texts in vaster amounts of text masses than ever before. The rise of mega-corpora has been both a curse and a blessing – their vast sizes have meant the ability to routinely utilize texts on scales never seen before, but their inclusiveness has brought additional challenges with contextualization. When the boundaries of a corpus are not clearly mapped, or when a mega-corpus spans across the boundaries of various well contextualized corpora, extra effort is needed in maintaining the representability of the data.

According to McEnery, the methods of the study deserve even more scrutiny than the case results themselves: with his unique perspective in the field, McEnery presents singularly convincing and well-thought insights on working with mega-corpora. Even though the results would have been worth many more plenaries, the essential core philosophy of McEnery’s methodology is both sobering and enthralling. “A corpus is more than a load of text. It needs linguistic tools to strip the essential parts of data.” Linguistic context is everything.

McEnery emphasizes that mega-corpora provide unique opportunities for synergy between the study of history and linguistics. While historians can help linguists by pointing out cultural contexts and frames, linguists can provide them with much needed linguistic context: whether a concept or change in semantics is relevant, and what it could mean within the linguistic frame.

While the vast sizes of modern corpora may sway some researchers to rely on statistics and correlations, McEnery disagreed heavily with such methods. The most important factors in language are change and context, as he emphasizes: “Dynamism is the key…Close reading is the key. No mathematics will tell you what is happening there.” Meaning is never stable, and there is only so much word frequency and connectivity will tell you without a deep reading of the selected text segments.

Methods and results go hand in hand

McEnery’s main warning to academics is in failed contextualization: not necessarily contextualizing the research texts and results, but in contextualizing the research texts with the 20th century methodology used to study them: as our – and our societies’ – conceptual maps change, we must closely examine our own conceptual frames when doing research, as our concepts of meaning may be fundamentally wrong in reading historical texts.

McEnery manages a rare feat: touching both methodological and socio-linguistic issues and bringing up important aspects in both. How we can and should use mega-corpora – and topically, how the ways the poor were criminalized through linguistic means in the 17th century echoes chillingly in our own time.

Text: Mika Loponen

Read more:

Digitaalisten ihmistieteiden tutkimukselle rahoitusta

Kolme humanistisen tiedekunnan tutkijaa on saanut rahoituksen Suomen Akatemian Digitaaliset ihmistieteet 2015 -haussa.

Terttu Nevalainen ja Taru Nordlund saivat rahoituksen hankkeille konsortioon Tekstin ja rakenteisen tiedon yhdistäminen kielenmuutoksen sosiolingvistisessä tutkimuksessa. Mikko Tolonen on mukana konsortiossa Digitaalinen historiantutkimus ja julkisuuden muutos Suomessa 1640–1910.

Miten kirjeistä välittyy sosiaalisia merkityksiä?

Yksityiset tekstit ovat ainutkertainen ikkuna menneiden aikojen arkiseen kielenkäyttöön. Terttu Nevalainen ja Taru Nordlund tarkastelevat suomen- ja englanninkielisen kirjeenvaihdon pohjalta miten oikeinkirjoitus ja muoto-opilliset valinnat sekä uusi sanasto välittävät sosiaalisia merkityksiä kuten vaikutusvaltaa tai epämuodollisuutta ja miten nämä merkitykset muuttuvat.

Koska nykyiset työkalut eivät helposti mahdollista tekstin yhdistämistä kielen ulkoiseen tietoon, rakennetaan sarja interaktiivisia työkaluja, joiden avulla tutkijat voivat tarkastella kielenkäytön sosiaalista luonnetta yhdistämällä toisiinsa tekstin, metatiedon ja visualisoinnin. Työssä ovat mukana Poika Isokoski Tampereen yliopistosta ja Eetu Mäkelä Aalto-yliopistosta.

Hankkeissa tutkitaan myös lähdetekstien luotettavuutta. Nykyiset kirje-editiot, jotka ovat käytännöllisin lähde mm. historiantutkimuksessa, usein modernisoivat oikeinkirjoitusta. Alkuperäinen muoto on mahdollista tarkistaa käsikirjoituksista; samalla voidaan kartoittaa, mitä piirteitä tyypillisesti muokataan, ja näin tehdä editiot luotettavammiksi kielitieteelliseen tutkimukseen.

Julkisen keskustelun analyysia tekstilouhinnan keinoin

Konsortio Digitaalinen historiantutkimus ja julkisuuden muutos Suomessa 1640–1910 perustuu neljän partnerin, Helsingin yliopiston humanistisen tiedekunnan, Turun yliopiston kulttuurihistorian ja informaatioteknologian ja Kansalliskirjaston Digitointikeskuksen yhteistyöhön.

Hanke tutkii ja arvioi uudelleen suomalaisen julkisen keskustelun laajuutta, luonnetta ja ylirajaisia kytkentöjä vuosina 1640–1910. Hanke yhdistää kaksi toisiaan täydentävää lähestymistapaa, ja pohjautuu toisaalta kirjastojen metadatan, toisaalta digitoitujen suomalaisten sanoma- ja aikakauslehtien tekstinlouhintaan.

Konsortio analysoi, miten kielirajat, eliittikulttuuri ja populaari keskustelu, tekstien uudelleen käyttö ja julkaisujen kanavat olivat vuorovaikutuksessa keskenään. Uutena merkittävänä metodologisena innovaationa ihmistieteissä esitellään avointen, tutkimusongelman erityispiirteet huomioivien tieteellisten laskentakirjastojen käsite ja toimivuus digitaalisen historian keskeisenä tutkimusmenetelmänä.

Suomen Akatemian rahoituspäätökset