Theodor Mommsen ja datan vallankumous

Theodor Mommsen (1817 – 1903) voi olla humanisteille tutumpi kuin monille muille. Mommsen nappasi Nobelin kirjallisuuspalkinnon vuonna 1902 magnum opuksellaan Römische Geschichte. 

Mutta miten 1800-luvun historiapainotteinen yleisnero liittyy digitaalisen tutkkimusdatan säilyttämisen ja jakamisen haasteisiin?Vastaus on Mommsenin toimittama Corpus Inscriptionum Latinarum, latinankielisten piirtokirjoitusten kokoelma. Piirtokirjoituksia on ympäri roomalaista maailmaa, useimmat lyhyitä. Yksittäinkin niillä on arvonsa oman aikansa ja paikkansa kuvastimena, mutta kun Corpukseen kerättiin näitä pikku tekstejä lähes kaksi sataa tuhatta, avautui aivan uudenlaisia mahdollisuuksia nähdä yhteyksiä kirjoitusten välillä. Kärsivällinen tiedonkeruu ja huolellinen editointi tuotti huomattavia edistysaskelia Rooman ja sen jälkeisen historian tutkimukselle.

Professori Martin Mueller Northwester Universitystä sanoi itse kuuluvansa siihen tutkijoiden sukupolveen, jonka aikana kirjallisuudentutkimuksessa lähinnä nautittiin suurten editiohankkeiden hedelmistä. Joillakin aloilla, kuten papyrologiassa, editointi on toki edelleen tärkeä osa tutkimusta, mutta toisilla tas käsitys sen tärkeydestä ja samalla sen merkittävyydestä tutkijan tehtävänä on hämärtynyt.

Digitaalistumisen pitäisi merkitä aivan uuden editointiurakan alkua. Suuri osa menneiden sukupolvien työstä on vielä saattamatta digitaaliseksi. Myös toteutuneet digitointiprojektit on tehty tavalla, joka ei tue teksti- tai historiallista kritiikkiä. Muellerin mukaan hän ei ole myöskään vielä nähnyt hanketta, jossa tutkijoiden osallistuminen esim. skannatun tekstin oikolukuun olisi ratkaistu onnistuneesti – tässäpä siis haaste Kuvatalkoot-hankkeelle, samoin kuin Kirjallisuuspankille, josta on käynnistymässä pilottihanke.

Mueller hieman provosoi sanomalla, että koferenssissa puhutaan katederista innostuneesti datan jakamisesta, mutta käytäväkeksusteluissa sävy on skeptisempi. Joku lie murjaissut, että “tutkijat jakavat mieluummin hammasharjansa kuin datansa”. Se, miten data saadaan avoimeksi ja yhteentoimivaksi riistämättä tutkijoiden työaikaa ja antamalla datasta kunnia sille, jolle kunnia kuuluu, onkin tärkeimpiä ratkaistavia ongelmia.

Mueller kehotti humanisteja(kin) ottamaan oppia biologeista – joiden tapa käyttää dataa ei hänen mukaansa ole loputtoman erilainen. Biologeillekin datan valmistelu laadukkaaksi ja käyttökelpoiseksi on työlästä, mutta biologiassa on osattu nähdä sen etu, että kaikki kantavat kortensa samaan kekoon.

***

Sopivasti kuulimmekin esityksen professori Søren Brunakilta, joka kertoi biologien ELIXIR-hankkeesta (http://www.elixir-europe.org/). Brunak kuvasi geenikartoituksen kehittymistä. Vielä jokin vuosi sitten geenikartoitus tarkoitti yhtä professoria tutkimassa yhtä geeniä. Lajin genomin kartoituksesta ollaan siirtymässä populaatioiden – väestöjen – genomien kartoitukseen. Mooren laki on pettänyt, mutta onneksi hyvällä tavalla: geenikartoituksen hinta on laskenut huimaavaa vauhtia. Brunak käytti termiä “häirikköteknologia” (disruptive technology): tutkijat ja infrastruktuurit eivät oikein ole pysyneet datan lisääntymisen perässä. Datan prosessoriteho ja tallennustila kaksinkertaistuvat puolessa vuodessa, mutta datan mielekäs analyysi on vielä tavattoman paljon kalliimpaa kuin sen tuottaminen. Biotietielijät ovat muuten kasvanaeet selkeästi suurimmaksi tutkijakunnaksi.

ELIXIR pyrkii ottamaan oppia siitä, että “suuret infrastruktuurit kaatuvat komeasti”. Siinä pyritään ennen kaikkea tuomaan yhteen ja koordinoimaan eri puolilla kehitettyjä ja kehittyviä komponentteja; keskitety mallit eivät kerta kaikkiaan toimi eivätkä etenkään saavuta tutkijayhteisöjen hyväksyntää.

Seuraavan askelena on yhdistää molekyylitason tieto tietoon fenotyyppien ilmiöistä – siis vaikkapa ihmisyksilöiden sairauksista. Erityinen vaikeus on yhdistää kahden varsin omalakisen tieteenalan infrastruktuureja ja datoja. Lupaukset siitä, mitä onnistunut yhdistämien voisi tarkoittaa datainsentiiviselle, neljännen paradigman tieteelle, ovat kuitenkin suuret. Nähtäväksi jää, kuinka pitkälle tällä tiellä voi edetä – geenit yhdistettyinä piirtokirjoituksiin?