Kielentutkimuksen aineistot avautuivat, koska tutkimus sitä tarvitsi – haastattelussa emeritaprofessori Terttu Nevalainen

”Ja koko ajan open access -ajatus oli läsnä – emme tee vain itsellemme, vaan myös muille tutkijoille”, Helsingin yliopiston englantilaisen filologian emeritaprofessori Terttu Nevalainen kuvaa kielentutkimuksen varhaista korpustyötä. Nevalainen on itse ollut kokoamassa tekstikorpuksia 1980-luvulta lähtien, ja tässä haastattelussa hän kertoo, miten avoimista aineistoista muodostui keskeinen osa kielentutkimuksen käytäntöjä.

Terttu Nevalainen. Kuva: Veikko Somerpuro

Digitalisaatiokehityksen myötä puhe avoimesta tieteestä on voimistunut 2000-luvulla. Esimerkkejä tieteen avoimuudesta löytyy kuitenkin pitkin tieteen historiaa. Tässä haastattelussa englantilaisen filologian emeritaprofessori Terttu Nevalainen (TUHAT, ORCID) kertoo kielentutkijoiden varhaisesta korpustyöstä, erityisesti 1980-luvulla alulle pannusta Helsinki Corpuksesta, joka on edelleen tutkijoiden käytössä avoimena aineistona.

Nevalainen pohtii haastattelussa myös open access -julkaisemista kielentutkimuksessa, ja käy läpi Varieng-yksikön oman, vuonna 2007 perustetun avoimen julkaisusarjan (Studies in Variation, Contacts and Change in English) taustoja.

Pitääkö kaikkien kerätä sama aineisto?

Tieteen avoimuus lähtee usein käytännön tutkimuksen tarpeista. Terttu Nevalainen havahtui avointen aineistojen merkitykseen 1970-luvun lopulla kerätessään aineistoa kielihistorian väitöskirjaansa Englannissa.

”Silloin tuli mieleen, että pitääkö kaikkien englannin historiasta empiiristä tutkimusta tekevien tosiaan mennä keräämään aineistonsa kirjastoon ulkomaille”, Nevalainen sanoo.

Nevalainen ei ollut ainoa, joka pohti tätä kysymystä.

”Kielentutkimuksessa oli 1970-luvulla syntynyt ajatus, että tietokoneluettavia tekstikorpuksia eli strukturoituja digitaalisia tekstistöjä voitaisiin jakaa. Yhdysvalloissa englannin professoreina toimineet alan pioneerit Nelson Francis ja Henry Kučera esittivät, että tietokoneiden avulla voitaisiin luoda aineistoja, joita muutkin tiedeyhteisön jäsenet ja opiskelijat voisivat hyödyntää ja joita voitaisiin käyttää myös tulosten vertailuun ja replikointiin. Idea perustui heidän jo 1960-luvulla kokoamaansa amerikanenglannin korpukseen. Tämä oli hyvin varhaista open access -ajattelua.”

Suomessa ajatus kieliaineistojen avaamisesta alkoi konkretisoitua 1980-luvulla. Helsingin yliopiston professorit Matti Rissanen ja Ossi Ihalainen kokosivat jatko-opiskelijoiden ryhmän, joka yliopiston ja Suomen Akatemian siemenrahoituksella alkoi koota ja työstää sekä 1900-luvun englannin paikallismurteista että varhaisista historiallisista teksteistä koostuvia aineistoja muinaisenglannista varhais-uusenglantiin. Nevalainen oli ryhmän jäsenenä kokoamassa 1500–1600-lukujen aineistoa yhdessä Helena Raumolin-Brunbergin kanssa.

”Korpustyö oli sitä, että luotiin malli siitä, mitä materiaalia ja tekstilajeja tuolta ajalta on olemassa, ja millainen miniatyyrikuva niistä olisi mahdollista luoda edustamaan aikakautta.”

”Se oli perinteistä kirjastotyötä. Meillä ei ollut kummoisiakaan digitaalisia apuvälineitä. Helsingin yliopiston kirjasto, nykyinen Kansalliskirjasto, oli meidän tärkein yhteistyökumppani, kun jouduimme monesti tilaamaan kaukolainaksi lähdekirjallisuutta, osa siitä vakuutuksin suojattuja harvinaisuuksia. Olimme vakioasiakkaita useamman vuoden ajan.”

Kuvakaappaus Helsinki Corpuksen nettiselaimesta.

”Emme tee vain itsellemme”

Helsinki Corpus julkaistiin ensimmäisen kerran 1991, jolloin siinä oli runsaat puolitoista miljoonaa sanaa.

”Nykystandardien mukaan se on pieni korpus. Mutta se oli luotettava, aineisto oli huolellisesti valittu ja oikoluettu. Sitä käytetään edelleen, ja sen pohjalta on tehty lukuisia väitöskirjoja eri puolilla maailmaa. Myöhemmin siihen on lisätty materiaalia kansainvälisten projektien yhteydessä. Viimeisimmässä versiossa on yhteensä yli neljä miljoonaa sanaa. Helsinki Corpus on ollut menestystarina, jonka innoittamana olemme saaneet rahoitusta myöhemminkin. Itsekin sain korpusta kootessani oman koulutukseni alalle.”

Nevalainen on osallistunut aktiivisesti korpustyöhön Helsinki Corpuksen jälkeen, muun muassa yksityiskirjeistä koostuvan Corpus of Early English Correspondence -korpuksen (CEEC) kehittäjänä 1990-luvulla.

”Siinä vaiheessa digitaalinen ajattelu oli jo yleistynyt teknisen kehityksen myötä. Ja koko ajan open access -ajatus oli läsnä – emme tee vain itsellemme, vaan myös muille tutkijoille.”

Monille tutkijoille korpusten kokoaminen on elämäntyöhön verrattava hanke. Nevalainen mainitsee esimerkiksi amerikkalaisen korpustutkija Mark Daviesin kymmeniä tai satoja miljoonia sanoja kattavat jättihankkeet (mm. Coronavirus Corpus ja News on the Web Corpus).

Korpukset ovat muuttaneet myös sitä, miten tutkimusta tehdään.

”Esimerkiksi kirjekorpus on tuonut uutta ajattelua kielihistoriaan. Korpus käsittää lähes 1200 kirjoittajaa ja yli 11000 kirjettä taustatietoineen ja mahdollistaa sosiolingvistisen tutkimuksen sekä ryhmä- että yksilötasolla. Korpuspohjaisesta kielentutkimuksesta on vähitellen tullut valtavirtaa alalla kuin alalla niin, että historiallisella sosiolingvistiikallakin on nykyään useita omia kansainvälisiä julkaisukanavia.”

CEEC-kirjekorpuksen kokoajatiimi vuonna 1997: Anne Virolainen, Minna Nevala, Arja Nurmi, Helena Raumolin-Brunberg, Minna Palander-Collin, Terttu Nevalainen ja tietokoneella Jukka Keränen. Kuva: Ari Aalto

Tuttuja teemoja: lisenssit, osaaminen ja verkostot

Nevalainen nostaa korpustyöstä esiin muutamia ydinkohtia, jotka ovat tuttuja myös nykyajan avoimia aineistoja koskevassa keskustelussa.

Ensinnäkin, tekijänoikeudet ja lisenssit määrittelevät korpusaineiston avointa jakamista.

”Kysymys on ollut siitä, missä määrin voidaan jakaa aineistoa, joka on alun perin julkaistu kirjamuodossa. Iso osa työstä on ollut selvittää kaiken käytetyn aineiston copyrightit. Olemme olleet yhteydessä kustantajiin, ja joistain aineistoista olemme maksaneet. Suuri osa tuotetusta korpusaineistosta on avoimesti saatavissa, mutta joissakin aineistoissa neuvotaan ottamaan yhteyttä aineiston hallinnoijaan. Näin menetellään esimerkiksi henkilöhaastatteluista koostuvan paikallismurrekorpuksemme kohdalla.”

Toiseksi, aineistojen levityksen ja käytön kannalta verkostot ovat keskeisiä. Nevalainen mainitsee erityisesti ICAME-organisaation (International Computer Archive of Modern and Medieval English) sekä Oxford Text Archiven ja pohjoismaiset yhteistyöverkostot. Levitystyö on jatkunut luontevasti näihin päiviin asti eurooppalaisissa CLARIN-hankkeissa. Suomen kansallisen FIN-CLARIN-konsortion hallinnoima Kielipankki tarjoaa pääsyn moniin teksti- ja puhekorpuksiin, myös Helsinki Corpukseen, ja määrittelee niiden käyttöoikeudet.

Kolmanneksi, korpusten laatiminen ja kokoaminen vaatii tiivistä ja pitkäjänteistä tiimityötä – eli monenlaista osaamista ja yhteistyötä eri osaajien kesken. Nevalainen pitää keskeisenä korpusten ja korpuslingvistisen tutkimuksen yleistymisessä sitä, että mukana on ollut alusta lähtien sekä kielentutkijoita että teknisen kehitystyön osaavia henkilöitä. Myös jatkokäyttäjät rikastavat aineistoja, ja Nevalaisen mukaan esimerkiksi kieliopillinen annotointi on hyödyttänyt lingvistisen tutkimuksen tekijöitä.

Aineistot elävät – ja vaativat hallintaa

Vuosikymmenten saatossa on syntynyt paljon korpuksia, joten aineistokokonaisuuksien hallinta on korpustyössä tärkeää. Helsingin yliopiston Varieng-tutkimusyksikön (Study of Variation, Contacts and Change in English) ylläpitämä Corpus Resource Database (CoRD) -tietokanta kokoaa yhteen korpusten metatietoja, ja sitä päivitetään jatkuvasti.

”Korpustyö on hidasta, ja korpuksista on usein monia versioita. 1990-luvulla julkaisemaamme kirjekorpukseen (CEEC) tehdyt viimeiset lisäykset ja annotoidut versiot on julkaistu tänä vuonna Zenodossa. Se on paikka, jonne tutkijat voivat tallentaa omia versioitaan korpuksista. Vaikka ulospäin voi näyttää, että tarjolla on vain yksi korpus, se voi käsittää eri versioita ja formaatteja. Projektit saattavat jatkua, ja aineisto karttua ja rikastua esimerkiksi juuri annotoinnilla.”

Korpuksia tuotetaan ja hyödynnetään Helsingin yliopistossa monella tavalla. Esimerkiksi englannin oppiaineessa Irma Taavitsainen on tiimeineen julkaissut lääketieteellisen englannin historiaan liittyvän korpuksen, Anneli Meurman-Solin puolestaan korpukset skottienglannista ja -kirjeistä. Samuli Kaislaniemi tutkii kirjemateriaalia vertaillen korpuksia alkuperäislähteisiin. Minna Palander-Collinilla on hanke, jossa tutkitaan sukupuolittunutta kielenkäyttöä verkosta saatavien aineistojen perusteella.

Varieng-tutkimusyksikön jäseniä vuonna 2006. Kylttiä pitelee Terttu Nevalainen. Kuva Veikko Somerpuro

Uusi avaus 2000-luvulla: open access -julkaisusarja

Nevalaisesta tuli Varieng-yksikön vetäjä 2000-luvun alussa. Suomen Akatemian valtakunnallinen huippuyksikköstatus (vuosina 2000–2005 ja 2006–2011) mahdollisti monenlaisia tutkimus- ja kehityshankkeita. Yksi uusista avauksista oli vuonna 2007 perustettu avoin, maksuton julkaisusarja, Studies in Variation, Contacts and Change in English, jossa on julkaistu tähän mennessä 21 volyymia, niin artikkelikokoelmia kuin monografioita.

”Ajattelimme, että oma julkaisu olisi hyvä idea, etenkin jos se tarjoaisi mahdollisuuden käyttää myös erilaisia visuaalisia keinoja, videota ja muuta multimediaa. Vaikka monet tutkijat julkaisevat tutkimuksensa toki lähes samassa muodossa kuin paperijulkaisunkin, sarjaan mahtuu myös useita visuaalisesti innovatiivisia artikkeleita.”

Vaikka open access -ajattelu on saanut aineistojen osalta kielentutkimuksessa jo varhain vastakaikua, tutkimustulosten avoimessa julkaisemisessa on edetty hitaammin.

”Jos ajattelee englannin tutkimusta, onhan se valtaosin maksumuurin takana. Alallamme on käyty tästä paljon keskustelua. Kirjastot joutuvat hankkimaan julkaisut, jotka olemme tehneet ja yleensä vertaisarvioineet ilmaiseksi, joskin isot kustantamot voivat maksaa pienen korvauksen kirjojen käsikirjoitusten lukemisesta.”

Yksi syy siihen, että korpuksiin liittyvä avoimuusajattelu ei ole yltänyt lehtiin tai kirjoihin, voi olla se, ettei julkaisujen saatavuutta ole tarvinnut sen kummemmin ajatella – toisin kuin aineistoissa.

”Korpusten laatiminen on ajateltu edellytyksenä sille, että voidaan tehdä tutkimusta. Julkaisujen kohdalla on perinteisesti ajateltu, että kirjasto hoitaa sen puolen, että kirjastostahan ne julkaisut sitten löytyvät.”

Aris Alissandrakisin ym. Varieng-julkaisussa Visualizing rich corpus data using virtual reality (2019) hyödynnetään 3D-virtuaaliteknologiaa datan visualisoinnissa.

Avoimen julkaisemisen tulevaisuus?

Mikä voisi lisätä laadukkaiden open access -julkaisukanavien osuutta englannin tutkimuksessa?

”Jos ajattelen omaa julkaisuamme, laadun takeena ovat Julkaisufoorumin kriteerit täyttävä formaatti  – toimitusneuvosto ja vertaisarviointi – ja se, että sarjaa julkaisee kansainvälisesti tunnettu tutkijayhteisö. Yleensä yksi tapa edetä voisi olla, että alalla etabloituneet tutkijat ottavat uudesta julkaisusta aluksi vetovastuun.”

Nevalaisen mukaan julkaisukanavan perustamisen pitäisi olla myös teknisesti riittävän helppoa, ja kanavan olisi kyettävä tavoittamaan potentiaaliset lukijat. Rahaakin tarvitaan.

”Open access ei ole koskaan ilmaista. Aina on oltava se henkilö, joka editoi materiaalin ja vie sen alustalle. Tällaiselle henkilölle täytyy olla mahdollisuus maksaa palkkaa. Variengin kohdalla on aina löytynyt projekteja, joista olemme voineet rahoittaa verkkoeditorin työn. Kaupallisilla kustantajilla on ammattimainen koneisto, joka tuottaa hyvän lopputuloksen, ja heillä on yleensä myös hyvä jakeluorganisaatio ja verkkoalustat. Nämä kriteerit pätevät myös avoimiin, ei-kaupallisiin julkaisusarjoihin.”

Yleensä yksi tapa edetä voisi olla, että alalla etabloituneet tutkijat ottavat uudesta julkaisusta aluksi vetovastuun.

Nevalainen näkee open access -julkaisemisen mahdollisuuksien lisääntyneen viime vuosina, minkä hän huomaa myös omassa julkaisuhistoriassaan.

”Ja sitten on tietenkin mahdollisuus laittaa artikkelista viimeistä edellinen versio (vertaisarvioitu post-print/AAM-versio) avoimesti saataville yliopiston julkaisuarkistoon. Siinä olen ollut vähän laiska, mutta olen parantanut omaa toimintaani viime vuosina. Se on myös helpottunut huomattavasti, koska yliopisto kirjasto nykyään avustaa rinnakkaistallennuksessa .”

Rinnakkaistallennuksessakin on omat puutteensa, joista yksi on kaupallisten kustantajien asettamat eripituiset julkaisuviiveet eli embargot.

”Ajantasainen julkaisukanava sekään ei siis välttämättä ole”, Nevalainen toteaa.