Big Data is a great new medium, but it is no silver bullet

For four exciting days in October the d2e: From Data to Evidence conference took place in the University Main Building. As conference assistants, we were able to take part in the adventure and absorb a multitude of information on the trends of current linguistic research.

Photo by Tanja Säily

Photo by Jukka Suomela.

The conference themes were Big Data, Rich Data, Uncharted Data. Their aim was to draw more discussion to the benefits and challenges of past, current and future linguistic research done in the field of corpus linguistics. The conference was hosted by the University of Helsinki and the Research Unit for Variation, Contacts and Change in English (VARIENG).

More is better – also when it comes to data?

In her opening words the director of VARIENG, Terttu Nevalainen, quoted the now almost clichéd truism: “there’s no data like more data” while simultaneously questioning the traditional meaning of “more data”.

In corpus linguistics, researchers seem to be continuously striving for ever vaster datasets and larger corpora. However, it is a worthy reminder that, in addition to big data and its huge volumes, rich data and uncharted data also meet the definition of “more data” in every sense of the expression.

Exploring big data, rich data and uncharted data

The numerous benefits of using big data and how it allows for research into areas and phenomena that were previously inaccessible were at the heart of many sessions. All of the plenary speakers (Mark Davies, Tony McEnery, Päivi Pahta and Jane Winters) as well as many others, such as Antoinette Renouf and Jack Grieve, touched on the topic. They also draw attention to the shortcomings of big data and the importance of close reading – even while working with large datasets.

An innovative example of utilizing rich data was Marie-Louise Brunner, Stefan Diemer and Selina Schmidt’s corpus of Skype conversations, where they had enriched their corpus of informal, academic dialogue by including the video component, orthographic transcription and pragmatic annotations.  This kind of study and corpus can be very useful in studying for example communication in English as Foreign Language and English as Lingua Franca as well as diverse types of multimodal research.

Previously uncharted data, which has not yet been systematically mapped, was also used in inventive ways in several research projects. For example, no one has done such detailed a study as Lucia Siebers on African American letters from the 18th and 19th century. Susanna Mäkinen on the other hand examined how slaves were characterized in the advertising sections of the newspapers in the same time period. She presented her findings on how the terminology and characterization varied in Massachusetts, New York and South Carolina newspapers.

Close reading takes time, money and effort, but is indispensable

In many ways the conference was finished off in similar sentiments as it was opened.

In his demonstration of the process of compiling and editing The Historical Thesaurus of English Marc Alexander touched upon all the three themes of the d2e conference. He reiterated the strong claim heard in many of the sessions and plenaries that big data does not excuse from close reading. His team led by example by having used a bottom-up approach without a predetermined theory that might warp the results while working on the colossal thesaurus, despite it being a huge undertaking.

Alexander reminded the audience that it is our job as experts to convince financiers that spending time getting fully acquainted with your data is a worthwhile use of research hours. Simultaneously researchers themselves must possess the energy and integrity necessitated by such labour-intensive a task.

As Tony McEnery articulated, a corpus is not just a lot of data: the context, the meaning and the structure of the data are of crucial importance. However interesting, voluminous and rich the data, it remains meaningless unless it is contextualised and translated into evidence.

Uncharted data waiting to be discovered

The variety of research topics presented at the conference was remarkable, as was the prevalence and enthusiasm for multidisciplinary collaborations, especially with historians and digital humanities developers.

As seen in this conference, today’s linguists can study a plethora of different topics, ranging from the use of the word “perhaps” between 1500-1850 to Zimbabwe’s current language situation, from Middle English alchemist texts to gender differences in Twitter English in Finland or the use of “pliis” in Finnish discourse.

Due to the relative novelty of the field, there is a whole uncharted world to explore and anyone interested in corpus linguistics will find as many opportunities for research as one could wish for.

Text: Johanna Hirvensalo & Sofia Bergman

More about the d2e conference:

Humanistit ja tietojenkäsittelijät lyövät hynttyyt yhteen

Digitaalinen humanismi pääsee pian vauhtiin, sillä sen edistämiseen on valittu kaksi puuhamiestä: Aatehistorioitsija Mikko Tolonen toimii professori Timo Honkelan sijaisena. Hänen aisaparikseen on palkattu tietojenkäsittelytieteilijä Eetu Mäkelä Aalto-yliopistosta.

Mäkelä ja Tolonen vierailivat 23.2. nykykielten laitoksella esittäytymässä ja tutustumassa digihumanismista kiinnostuneisiin tutkijoihin. Virallisesti kumpikin aloitti laitoksen leivissä 1. maaliskuuta.

Tutkimusongelma edellä

Tolonen painottaa sitä, että digihumanismissa ei tavoitella uutta tieteenalaa vaan monitieteistä yhteistyötä. Tärkeintä on tutkimuksellinen lisäarvo: digitaalisilla menetelmillä haetaan uusia näkökulmia ja vastauksia tutkimuskysymyksiin, jotka tulevat humanistisen tutkimuksen keskiöstä. Teema pitää sisällään myös digitaalisuuden tutkimuksen.

Laajojen datakokonaisuuksien avulla voi etsiä merkityksiä kysymyksille kuten ”mitä historia on”. Tolonen esitteli kaksi lähestymistapaa: tiedon kokoamisen suurista korpuksista tekstinlouhinnan avulla ja metadatan käyttämisen kvantitatiivisena työkaluna. Erityyppiset aineistot ovat yhdisteltävissä: voidaan sekä tutkia rakenteista dataa että liikkua siitä tekstilouhintaan. Tämä avaa uusia mahdollisuuksia.

– Käännetään esimerkiksi kirjastoluettelo päälaelleen: käytetään vanhaa aineistoa uuteen tarkoitukseen viemällä se avoimeen tieteelliseen laskentakirjastoon. Luettelosta voi kaivaa vaikkapa julkaisupaikkojen avulla tietoa siitä, missä jotain tieteenalaa kehitettiin aktiivisesti tiettynä aikana, Tolonen havainnollistaa.

Avoimuutta datan hyödyntämiseen

Kukin tietoaineisto ja tutkimus vaatii erityiskäsittelyä ja asiantuntijan panoksen. Aineiston puhdistaminen esimerkiksi kirjoitusvirheistä ja epäyhtenäisistä kirjoitusasuista on työlästä.

– Aineistoja kannattaa putsata automatisoidusti ohjelmakoodin avulla erilaisia sääntöjä kehittäen, Tolonen selittää.

Samalla osa työn tuloksista voidaan kohdistaa myös muihin vastaaviin aineistoihin – näin syntyy huomattavaa skaalattavuutta. Aineisto tarjotaan myös muiden tutkijoiden käytettäväksi: periaatteessa kuka tahansa voi osallistua työhön jo tutkimusprosessin aikana. Mitään ei korjata käsin ilman, että siitä jäisi palautettava jälki.

– Koko työkulku raakadatasta tulkintojen kautta johtopäätöksiin on tarkasteltavissa ja toistettavissa, Mäkelä korostaa.

Visualisointi auttaa näkemään uusia asioita

Mäkelä kehittää järjestelmiä datan käsittelyyn. Niiden hyödyllisyyden arviointi on haastavaa, ja siksi hän haluaakin palautetta työkalujen käyttäjiltä.

– Humanisteilla on vaikeita tutkimusongelmia ja paljon rikasta aineistoa, mutta ei tarpeeksi työkaluja sen tonkimiseen. Haluan mahdollistaa syväluotaavan sukelluksen raakadataan, Mäkelä kuvailee.

Mäkelä on laatinut esimerkiksi visualisointityökaluja. Yhteisiä nimittäjiä niille ovat karttojen ja aikajanojen hyödyntäminen sekä linkittäminen takaisin alkuperäiseen aineistoon.

Humanistiset aineistot ja tutkimus vaativat usein syvällistä tulkintaa. Tarvitaan työkaluja, jotka auttavat löytämään aineistosta kiinnostavia säännönmukaisuuksia ja jäsentämään raakadataa.

– Tarkoitus ei ole laatia dataa raksuttavia algoritmeja, jotka sylkäisisivät lopuksi ulos valmiin tuloksen. Haluan tarjota työkaluja nimenomaan ihmiselle: auttaa tutkijaa katsomaan aineistoaan eri tavalla, Mäkelä selittää.

Yhteistyökulttuuri juurrutettava tutkimukseen

Tolonen näkee tarpeen sosiaaliselle muutokselle. Humanistis-yhteiskunnallisen tutkimuksen merkittävä pullonkaula on moderniin data-analyysiin liittyvien menetelmien ja osaamisen puute sekä ratkaisujen hajanaisuus. Avoimet sähköiset aineistot ovat kaikkien saatavilla, mutta liian laajoja yksittäisen tutkijan hallittavaksi.

– Kasvavien aineistomäärien käyttöönottoon tarvitaan työkalujen lisäksi myös uudenlaista tutkimusyhteistyötä, samaan tapaan kuin esimerkiksi biotieteissä on ryhdytty toimimaan ihmisen perimän tutkimukseen liittyen. Lisäksi keskeistä on, että päätökset menetelmien käytöstä ja kehittämisestä syntyvät tutkijalähtöisesti, Tolonen sanoo.

Puoli miljoonaa kielen reaaliaikaisen muutoksen tutkimukseen

Suomen Akatemia on myöntänyt yli 500 000 euron rahoituksen professori Terttu Nevalaisen hankkeeseen, jossa tutkitaan reaaliaikaisuuden aiheuttamia haasteita kielen muutoksen tutkimuksessa.

– Yksi kielentutkimuksen suurimmista haasteista on ymmärtää, miksi ja miten kieli muuttuu, Nevalainen toteaa.

Kuva: Eeva Anundi

Kuva: Eeva Anundi

Tutkimuksia reaaliajassa tapahtuvasta muutoksesta ei ole aiemmin kattavasti koottu yhteen. Yksi hankkeen tavoitteista onkin laatia alan empiirisistä tutkimustuloksista kattava tietokanta (Language Change Database). Tämä tietokanta edistää tutkimusta aina tilastollisesta mallinnuksesta sosiolingvistiikkaan. Sen avulla voidaan myös toistaa vanhoja tutkimuksia uusilla aineistoilla.

Projektin jäsenet tekevät myös uutta korpuslingvististä eli laajoihin tekstiaineistoihin perustuvaa kielentutkimusta, joka keskittyy kahteen suhteellisen vähän tutkittuun aiheeseen: englannin sanasemanttiseen ja sanojen johtamisessa tapahtuvaan muutokseen.

Sosiolingvistiset hypoteesit ovat tutkimuksen keskiössä. Tarkastelun kohteena ovat mm. erilaisten yhteisötyyppien vaikutus kielen muutokseen, muutoksen nopeus, kielenkäytön rekisterit sekä metodiset kysymykset.

Tutkimus toteutetaan yhteistyössä johtavien sosiolingvistien ja tietojenkäsittelytieteilijöiden kanssa.

Tietokanta kielenmuutoksista tuo merkittävän lisän Nevalaisen johtaman Varieng-tutkijayhteisön tarjoamaan avoimeen tutkimusympäristöön.

Suomen Akatemia myönsi noin 21 miljoonaa euroa kulttuurin ja yhteiskunnan tutkimuksen akatemiahankkeisiin. Toimikunnalle osoitettiin 375 hakemusta, joista rahoitettiin 34 hanketta. Helsingin yliopiston humanistisesta tiedekunnasta rahoitusta sai yhteensä kuusi hanketta. Nevalaisen hanke Reaaliajan haasteet kielen muutoksen tutkimuksessa on käynnissä 1.9.2014–31.8.2018. Lisätietoa