Datan uumenissa eli kuinka humanisti selviää hackathonista hengissä

Kirjastolaistunut perinteinen filosofi-humanisti laittoi itsensä ihmiskokeeseen ja ilmoittautui Digital Humanities Hackathon (DHH) 2018 -tapahtumaan. Miten käy, kun uppoutuu suureen dataan kahdeksaksi päiväksi? Lue tästä!

(The abstract of this post is also available in English.)

Rakas päiväkirja! Tänään ollaan jännän äärellä. Osallistun nimittäin Digital Humanities 2018 Hackathoniin! Minä, joka en tiedä digihumanismista (DH) juuri muuta kuin että se on hirmu muodikasta ja suosittua ja vaikeata. Tai ainakin siltä se vaikuttaa – pakko myöntää, että pelkään vähän kaikkia niitä numeroita ja laskutoimituksia sun muita algoritmeja. Miten tämmöinen kirjakammiossa viihtyvä pölyttynyt arkkihumanisti voi siitä mitään tajuta?

Keskiviikko 23. 5. 2018

Täällä sitä nyt ollaan, Siltavuorenpenkereen Athenassa hackathonin ensimmäisessä kohtaamisessa. Se alkoi perinteisen humanistisesti luennolla täydelle luentosalille. Aluksi kuultiin johdatus hackathonin järjestävän Computational history-yksikön (Comhis) toimintaan ja digihumanismin periaatteisiin, joista tärkein tuntuu olevan se, että humanistit ja datatieteilijät ja muut tietojenkäsittelijät tekevät työtä yhdessä. Kyse ei ole siis siitä, että humanistit tutkivat ja muut ovat IT-tukena, vaikka varmaankin kommunikaatio voi toisinaan olla haastavaa näin erilaisten lähtökohtien omaavien välillä. Kuten tieteessä yleensä, digihumanismi lähtee tutkimuskysymyksistä. Vasta sitten voidaan miettiä mitä laskennallisia keinoja on niiden tutkimiseksi. Siten digihumanismi on nimenomaan vuorovaikutusta eritaustaisten tutkijoiden välillä. Viikon aikana tulin huomaamaan, että ihanteet ja käytäntö aikataulutetussa hankkeessa ovat toisinaan haasteellisesti yhteen sovitettavissa – mutta siitä lisää myöhemmin.

Loppupäivä perehdyttiin aiempien kolmen hackathonin projekteihin ja esiteltiin tämänvuotisen tapahtuman viisi eri teemaa/ryhmää, jotka olivat:

  • People in the news – mikä oli uutisarvoista 1800-luvun suomalaisissa sanomalehdissä?
  • Russia – Finland – mikä painottuu Venäjän Suomea koskevissa uutisissa ja mikä suomalaisen lehdistön Venäjä-uutisoinnissa?
  • Early modern publishing – minkälaisia trendejä ja muutoksia voidaan havaita englantilaisessa 1700-luvun kirjankustannustoiminnassa?
  • The Death Psalm of Bishop Henry – ryhmässä tutkittiin digihumanismin keinoin suomalaista oraalista historiankirjoitusta, aiheena piispa Henrikin surmatyö
  • Helsinki in Geotagged Social Media – tämä ryhmä, joka heti nimettiin onnellisuusryhmäksi, tutki paikkajakaumaa ja sen suhdetta tunteisiin sosiaalisessa mediassa

Esittelyjen jälkeen käärittiin hihat ja käytiin todelliseen työhön. Osallistujat jakaantuivat ryhmiin ja hackathon alkoi! Oman ryhmäni eli Early modern publishing (#empub) kohdalla se tarkoitti sitä, että pakenimme Siltavuorenpenkereeltä aivomyrskyyn Metsätalolle. Ryhmä kasaantui sohville ja tuoleille, ja niiden eteen tuotiin taulu. Vaikka ryhmän vetäjät (Mark Hill, Ville Vaara ja Tanja Säily) olivat jo miettineet alustavia teemoja, kaikkia pyydettiin kehittämään lisää eikä mitään ideaa väheksytty. Kyse oli siis varsin perinteisestä humanistisesta työtavasta, jossa tutkimuskysymykset syntyivät tutkimusintressien pohjalta. Samalla kuitenkin mietittiin, miten ideoita voitaisiin toteuttaa tai ainakin visualisoida datalouhinnan kautta. Eli metodikysymykset olivat yhtä paljon pinnalla kuin varsinaiset tutkimuskysymyksetkin.

Taulu täyttyi hyvää vauhtia ja syntyi hyvää synergiaa, kun yhden jäsenen ideaa kehitti joku toinen ja vetäjät toivat mukaan vielä eri toteutustapoja. Lopulta otettiin kuvia taulusta ja pistettiin päivä pussiin. Seuraavaksi päiväksi jäi ideoiden jalostaminen eli varsinaisten tutkimuskysymysten muotoilu.

Aivomyrskyn satoa. Kuvat: Markku Roinila

Torstai 24. 5. 2018

Päivä alkoi siitä mihin eilen jäätiin eli aivomyrskystä. Eilisen ideat olivat jääneet hautumaan ja edettiin kierroksella, jossa kukin hahmotteli jonkinlaista tutkimuskysymystä eilisten ideoiden pohjalta. Samalla mietittiin mitkä ideoista olivat mahdollisia toteuttaa DH-metodeilla. Yksi osallistuja oli ensimmäiset kolme päivää mukana Pietarista asti Skypen välityksellä.

Tässä välissä on varmaan hyvä kertoa vähän lisää ryhmästämme. Vetäjät tulivat Comhis-tutkimusryhmästä. Kanadasta Suomeen päätynyt Mark Hill on erikoistunut aatehistoriaan, Ville Vaara kirjahistoriaan ja Tanja Säily edustaa englantilaista filologiaa. Ryhmän jäsenien tausta on kirjavan humanistinen ja toisaalta mukana on tietojenkäsittelijöitä. Niko Ilomäki ja Iiro Tiihonen edustavat historiaa, Anne Salminen ja Mathilda Larsson kirjallisuustiedettä ja minä filosofiaa ja historiaa. Lisäksi mukana oli David Rosson Aalto-yliopistosta sekä vahvistus Pietarista, Shota Dzhachvadze. Davidin ja Shotan lisäksi myös Iiro ja Niko ovat kotonaan koodin parissa, joten ryhmä jakaantui pian digitaalisia metodeja osaamattomiin eli minuun, Anneen ja Mathildaan (”humanistit”) ja muihin (”koodarit”).

Koska aikaa on vain kahdeksan päivää, työn järkevä jakaminen on välttämätöntä. Siksi ryhmän heterogeenisuus onkin hyvä asia. Vetäjien mukaan olennaista on se, että kaikilla on koko ajan jotain järkevää tekemistä, sillä aiempina vuosina ryhmän koostumus aiheutti sen, että koodareilla oli liikaakin työtä muihin verrattuna. Muistaakseni jo nyt tuli kuitenkin esille käsite #nightshift, joka tuli olemaan totista totta joillekin seuraavan viikon aikana.

Toisen päivän alussa hackathon-tapahtuman johtaja, professori Mikko Tolonen kertoi mitä meidän oletetaan tekevän (hackathon on pohjimmiltaan oppimisharjoitus eli siitä voi saada kolme tai viisi opintopistettä toimittamalla portfolion määräaikaan mennessä). Perjantaina on määrä esittää alustava tutkimussuunnitelma, jonka valmistaminen onkin torstain tavoite. Seuraavan viikon keskiviikkona esitetään väliraportti ryhmän edistymisestä, torstaina on oltava valmis akateeminen posteri ja sitten perjantaina – gulp – on päätöspäivä, jolloin kukin ryhmä esittää suurelle yleisölle työnsä tulokset Minerva-torilla. Samaan syssyyn perjantaina on myös posterisessio. Lisäksi kultakin ryhmältä edellytetään julkista ulottuvuutta (public outreach), oli se sitten twiittaaminen, blogi tai mitä vain, joka esittää ryhmän tuloksia muille ihmisille. Siten on laadittava myös sosiaalisen median strategia.

Päivä jatkui tutkimussuunnitelman ideoimisella. Kaikenlaista heitettiin ilmaan edellisten aivomyrskysessioiden tiimoilta, mutta eiliseen verrattuna ne alkoivat kuulostaa enemmän jo ihan oikeilta tutkimuskysymyksiltä. Ja päivän edetessä karsinta koveni koko ajan – eihän tutkimussuunnitelmaan voi mitä tahansa laittaa! Keskeisiksi aihelmiksi tässä vaiheessa miellettiin kustantajien sijainti ja niiden julkaisemat genret. Paikallistamiseen voitiin käyttää GIS:ää (geographic information system), siis paikkatietojärjestelmää, jossa digitaalisten tagien avulla voidaan tehdä sijaintikarttoja. Kustantajien genret vaativat sen sijaan osin käsityötä: oli selvitettävä, minkälaisia kustantajia erityyppiset kirjoittajat käyttivät. Työnjaoksi muodostui se, että minä keskityin tieteeseen ja Anne ja Mathilda kaunokirjallisuuteen, vahvuuksiemme mukaan. Genrejakaumaa yritettiin selvittää myös kvantatiivisesti, mutta huonoin tuloksin kuten jäljempänä selviää. Tässä vaiheessa ajateltiin myös tutkia kirjojen hintojen vaikutusta yleisön valikoitumiseen ja tiettyjen historiallisten tapahtumien vaikutusta kustannustoimintaan.

Sitten alkoi varsinainen työstö. Humanistit keskittyvät pääosin tutkimukseen eli datanmuodostukseen ja koodarit repivät kiinnostavaa materiaalia esiin tietokannoista, joista pääasialliset olivat Eighteenth Century Collections Online (ECCO), joka käsittää noin puolet Englannissa 1700-luvulla julkaistusta kirjallisuudesta ja English Short Title Catalogue (ESTC), joka tarjoaa kattavan metadatan ajan kirjallisuudesta. Nämä Helsingin yliopiston kirjaston lisensoimat tietokannat ovat erinomainen lähde tutkimusaiheemme kannalta. ECCO tarjoaa raakadataa, eli tekstejä, joista voidaan kaivaa tietoja kirjallisuuden genreistä, kun taas ESTC tarjoaa tietoja mm. tekijöistä, kustantajista ja teosten hinnoista.

Omaksi osakseni jäi toimiminen Twitter- ja Instagram-kenraalina sekä 1700-luvun englantilaisten tieteellisten teosten kustantajien ja niiden Lontoon sijaintien jäljittäminen. Se on hidasta käsityötä – etsiskelin Wikipediasta ja eräistä muista avoimista lähteistä (esimerkiksi Helsingin yliopiston kirjaston Research Guideista) sopivia tieteilijöitä ja heidän teoksiaan. Tämän jälkeen yritin löytää teosten ensimmäisten editioiden kansilehtiä (mm. Google-kuvahausta ja Open Librarysta, joista ilmenee ao. teoksen kustantaja ja sen sijainti. Toisinaan kustantajia oli useitakin, sillä tekijänoikeus saatettiin jakaa usealle eri henkilölle. Tulipa muutamaa oikeaa kirjaakin selattua. Näistä syntyi siten vähitellen dataa eli Excel-taulukko, johon kirjasin tekijän, teoksen, julkaisijan ja sen sijainnin.

Ohessa toimin siis somevastaavana eli postasin kuvia ja edistysaskeleita ryhmästämme Twitteriin (hashtagit #dhh18 ja oman ryhmämme tunnus #empub ja kuvia vielä iloisista ryhmäläisistä Instagrammiin (samat tagit)).

Muut ryhmäläiset alkoivat penkoa kaunokirjallisuuden kustantajia ja sitä, mitä datasta saisi aikaan. David sai tehtäväkseen historiallisten Lontoon karttojen etsimisen ja sen keksimisen, miten löydetyt kustantajat saisi lisättyä sellaiseen. Lisäksi tutkitaan kustantajien verkostoja, kustantajadynastioita ja kehitellään pari tapaustutkimusta. Näistä tutkimussuunnitelmamme rakentui.

Täältä pesee!

Perjantai 25. 5.

Hei taas, rakas päiväkirja! Hackathonissa on oivalluksia, riemunkiljahduksia, tieteidenvälisiä siksakkeja, mutta ennen kaikkea se on hikistä puurtamista. 1700-luvun kustantajien selvittely jatkui osaltani aamupäivän ja etenin biologiasta filosofiaan ja teologiasta politiikkaan. Selvisi, että 1700-luvun Englannissa tieteilijät julkaisivat harvemmin kirjoja ja usein tieto kulki The Royal Societyn eli Kuninkaallisen tiedeakatemian Transactions-kausijulkaisun kautta. Jos tulokset ilmestyivät kirjana, sen julkaisija löytyi lähes aina Lontoosta (80,7%) (toisinaan Edinburghista tai Dublinista) ja monet kustantajat (kaikkiaan yli 5000) sijaitsivat St. Paulin tienoilla. Pian ilmestyi Iiron taikomana esiin myös piirakkakaavio, joka osoitti vääjäämättömästi tämän asiantilan.

Tänään oli siis määrä esittää tutkimussuunnitelma, ja sitä (eli powerpoint-kalvosettiä) puurrettiin helteisessä Athenassa juuri ja juuri kahvitauot muistaen. Tai oikeastaan kahvitauot kyllä muistettiin tunnollisesti – mutta siitä enemmän lopussa.

Tutkimuskysymykset tuntuivat minusta vielä vähän luonnosmaisilta, mutta niillä mentiin, ja tueksi kerättiin erilaisia visualisointeja, joiden valmistuminen meni aika viime tinkaan. Onneksi apuna oli Comhisin koodari-tutkijoita, joiden panos Slack-kommunikaatiovälineen kautta oli suurempi kuin olisi paikanpäällä heti huomannutkaan. Itse en nimittäin edes älynnyt seurata kiihkeää kommunikaatiota, sen verran 1700-luvulla viihdyin koko ajan.

Itseluottamuksemme oli kovaa luokkaa eivätkä polvemme paljon tutisseet, kun astelimme luokan eteen esittelemään projektiamme hackathonin vetäjille ja muille ryhmille. Palaute olikin rohkaisevaa – professori Tolonen sanoi, että on hyvä, että teemme tätä. Kritiikkiä tuli lähinnä hintatietojen käyttämisestä lukijakunnan kartoitukseen, sillä todistusaineisto on suppeanpuoleinen. Jälleen kerran pysyttiin humanismin ytimessä – kritiikki olisi todennäköisesti ollut samanlaista, jos olisimme käyttäneet lähteinä vain ja ainoastaan kirjoja.

Joka tapauksessa hintatietoja tietokannoista puristanut Niko oli tullut samankaltaisiin johtopäätöksiin – hintatiedot korreloivat lähinnä sivumäärien kanssa ja olisi tarvittu sofistikoituneempaa analyysimenetelmää paremman tuloksen aikaansaamiseksi. Tähän ei vaan ollut riittävästi aikaa. Päätimmekin jättää hintatiedot sikseen ja keksiä muita, parempia kysymyksiä. Loput perjantaista meni muiden ryhmien esitysten seuraamiseen, mutta niiden selostamiseen menisi liikaa tilaa eli lopetan tältä viikolta tähän ja pistän näkyviin kuvan toisesta ryhmästä (”onnellisuusryhmä”) samalta päivältä. Tämänkaltaisia rykelmiä näkyi hackathonin aikana paljon.

Onnellisuusryhmä saattoi löytää onnen reseptin.

Maanantai-tiistai 28. & 29. 5.

Taas mennään, rakas päiväkirja! Viikonloppu meni auringossa kölliessä enkä onnistunut näkemään unia 1700-luvusta tai Lontoosta. Toki tietoisuudessa pyöri se, että seuraava viikko voi olla haastava. Näin ei tainnut olla kaikkien laita – Niko puuhasi jotain viikonloppuna ja Iirolta oli näköjään ilmestynyt Slackiin Lontoon kartta kustantajineen klo 2.05 sunnuntain ja maanantain välisenä yönä. #Nightshift, todellakin!

Tänään kokoonnuimme ensi kertaa Siltavuorenpenkereen Minerva-torille, joka tulee olemaan kotimme tämän viikon, hackathonin loppuun asti. Saimme ison tietokonemonitorin käyttöömme, tosin se jäi aika vähälle käytölle. Vanhanaikaisena ehdotin nimittäin heti löytämiemme kustantajien kirjoittamista painotuksineen ja kirjoittajineen monitorin vieressä olleeseen kirjoitusseinään. Siinä menikin vähän aikaa, ja jälkikäteen ajatellen tietojen laittaminen Exceliin olisi varmasti ollut näppärämpää. Oli vaivasta kuitenkin se hyöty, että asiaa tunteva Mikko Tolonen saattoi nähdä missä menimme ja antoi hyödyllisiä neuvoja sekä homman edistämiseksi, että sudenkuoppien välttämiseksi.

Kustantajat ja klassikot taululla.

Tänään ryhmämme myös täydentyi, kun Pietarista Skype-yhteyden päässä ollut Shota liittyi joukkoomme. Maanantain ja tiistain työ koostui kustantajien etsimisestä ja erilaisen datan yhdistämisestä toisiinsa. Samaan aikaan dataveijarit jatkoivat minulle käsittämättömiä temppujaan tietokantojen parissa. Esimerkiksi Iiro kehitti ESTC:stä kustantajien esiintymiä ja siirsi niitä Lontoon kartalle – tästä tulikin yksi slide lopulliseen esitykseemme. Shota yritti tunnistaa genrejakoa ECCO-tietokannasta, mikä osoittautui hankalaksi. Lähtökohtana olivat romaanit, koska tarkoituksena oli selvittää romaanigenren suosiota 1700-luvulla. Hanke kuitenkin epäonnistui huonon datan ja ajanpuutteen vuoksi. Tämän sain itsekin huomata myöhemmin torstaina, kun kävin yhden iltapäivän läpi Excel-taulukkoa, jossa oli automaattisesti luotu romaanintunnistus. Vain yhdessä tapauksessa tässä onnistuttiin – muuten tunnistukset menivät väärin ja romaanit sekoitettiin mm. saarnoihin ja hartauskirjoihin. Homma osoitti hyvin myös digitaalisten ihmistieteiden keskeisen rajoitteen – data on käytävä läpi ja siivottava käsityönä. Kaikki dataotokset on tarkistettava huolellisesti ja mietittävä niiden käyttökelpoisuutta ja luotettavuutta, aivan kuten perinteisessäkin historiantutkimuksessa. Tässä esimerkkinä pätkä ECCOsta – automaattinen skannaus eli OCR tuottaa aina aika paljon roskaa, joka on siivottava osin automatisoidusti, osin käsityönä:

”THE\nSPECTATO R.\n\nVOL. I.\n\nL O N D- O.N:\nPrinted for S. Bockle, at the Dolphin in Litkle-\n\nBritain; and 7. T’fon, at Sbhakepear’s- Head\nover-againt catbtrine-f.rett in the StraniL 1712.\n\nl\n\n# To the Right Honourable John Lord Sommers, Baron of Evesham.\n\nTo the Right Honourable\nJobnm Lord Sommers,\n\nBaron of Eveiham.\nMyLORD, i,\n\nShould not aa the\nPart of am impartial\nl Spetatr, if I Dedi-\ncated the following\n\nPapers to one who is not of the\nmost confumiate and moit ac-\nknowledged Merit ,i. .:\n\nA a None\n\nNone but a Person of a si-\n\nniIhed Charaier :can be the\nproper Patron of a-Work, which\nendeavo3.\”’to Citdivate and\nPolilh .a Life, y promo-\nting Virtue and Knowledge,\nand by recommending whatfoe.\nVer may be either Uieful or Or.\nnamental to Society.\n\n’ know that the’Homage I\n\nnow pay You, is offering a kind\nof Violence to one who is as so-\nlicitous to Ihun Applause…”

Jo maanantaina syntyi läpimurto, kun Lontoon kartan parissa puuhannut David keksi keinon, jolla saadaan kustantajat lisättyä John Rocquen vuoden 1746 karttaan lisätietoineen (aktiivivuodet, rooli kustannustoiminnassa, julkaisugenret, julkaistut otsikot, sukupuoli). Karttaan merkittiin myös kahvilat. Tästä tuli lopullisen esityksemme keskeinen työkalu ja innovaatio, jota kävi moni ihmettelemässä ja kokeilemassa. En yritäkään kääntää hänen kuvaustaan prosessista eli seuraava on Davidin omaa kertomaa: ”Experimented with a map visualisation library called Leaflet, which allows adding interactive markers with geo-coordinates. What is shown as the map, that is, the image layer comes from a ’tile server’ which responds (with an image tile) to requests specified with location and zoom level. The coordinate-based functions, adding markers, zooming, panning etc. are ’tile provider-agnostic’, so the map itself could be anything, from Open Street Maps, to Google Maps satellite images, to stylised watercolor, to the historical Rocque map from Locating London’s Past.”

Läpimurto!

Seuraavina päivinä kartta komistui koko ajan ja lopulta siihen saatiin vielä temporaalinen ulottuvuus, jolla voitiin todistaa kustantajien sijainnin muutos 1700-luvun kuluessa. Niinpä tuloksena oli interaktiivinen Lontoon historiallinen kartta, josta kustantajien sijoittumista voi tarkastella. Lisäksi erityistä huomiota oli kiinnitetty tapaustutkimustemme visualisointiin. Mutta yksityiskohtien hiomisessa kului toki paljon kahvia ja hikikin tuli.

Kartta kaipaa vielä pientä laittoa.

Humanistit jatkoivat tiedon keruuta. Itse keräsin faktoja kustantajista ja tein tapaustutkimuksen filosofi George Berkeleyn kustannushistoriasta, kehittäen ehkä hivenen huteran teorian siitä, että hän ovelasti vaihtoi kustantajaa parempaan päästyään sisään Lontoon kirjallisiin piireihin (mm. Pope, Swift, Addison, Steele). Lisäksi hän julkaisi muut kuin filosofiset teoksensa (mukaan lukien kuuluisa tervaveden siunauksellisuutta koskeva tutkielma Siris: a chain of philosophical reflexions and inquiries concerning the virtues of tar-water, and divers other subjects connected together and arising one from another) ko. aiheisiin erikoistuneilla julkaisijoilla. Myöhemmin sain kuulla, että monet muutkin tekivät niin, mm. samoihin aikoihin elänyt filosofi Bernard Mandeville, joka tunnetaan iskulauseestaan ”yksityiset paheet, julkiset edut” – kansantalous rakentuu yksityisten kansalaisten paheille, ei hyveille.

Mathilda syventyi tapaustutkimukseen sisarusten Sarah ja Henry Fieldingin kustannushistoriasta. Ilmeni, että heillä oli huomattavan paljon eri kustantajia, tosin Sarahilla huomattavasti vähemmän kuin Henryllä. Lisäksi Mathilda rakensi Tonsonin kustantajadynastian sukupuun. Anne puolestaan tutki kustantajien ja naispuolisten kirjailijoiden suhdetta Iiron avustuksella (selvisi, että James Roberts julkaisi eniten naispuolisten kirjailijoiden teoksia) sekä naispuolisia kustantajia, joita paljastui olevan 99 kpl, tosin he liittyivät yhtä poikkeusta lukuun ottamatta kustantajadynastioihin. Annen kontolla oli myös tapaustutkimus Eliza Haywoodista, joka toimi itse paitsi kirjailijana (sekä romaaneja että muuta kirjallisuutta), myös kustantajana ja jopa näyttelijättärenä.

Ville raahasi ahkerasti läjän kirjoja Minerva-torille joka päivä ja niiden lisäksi käytettiin tiedonkeruussa paljon avoimia lähteitä, kuten Wikipedia, Tieteen termipankki, Open Libraryn kustantajahaku, BBTI eli British Book Trade Index (http://bbti.bodleian.ox.ac.uk/) (josta kaivettiin kustantajien sijainteja, jotka voitiin sitten sijoittaa kartalle) ja erilaisia verkkosivuja, kuten Locating London’s Past (https://www.locatinglondon.org/).

Vähitellen tarkempi kuva alkoi hahmottua: päätimme valita esiin tulleista kustantajista vain kuusi tärkeintä (Andrew Millar, James Roberts, William Strahan, Thomas Cadell, Thomas Longman ja Jacob Tonson), ja katsoa paitsi heidän sijoittumistaan, myös julkaistujen teosten genrevalikoimaa. Selvisi myös, että on väitetty kustantajien siirtyvän 1700-luvun kuluessa vähitellen idästä länteen päin. Datan avulla tämä verifioitiin, mitä voi pitää ryhmämme yhtenä keskeisenä tuloksena.

Keskiviikko 30. 5.

Tähän saakka ryhmämme on edennyt hyvässä järjestyksessä ja kutakuinkin aikataulussa, mutta kyllähän deadlinet alkoivat vähitellen paukkua. Tänään iltapäivällä pitäisi esittää jonkinlainen alustava versio esityksestämme muille hackathonin osallistujille ja tietysti myös kriittiselle johtoportaalle. Huomenna pitää puolestaan olla valmiina akateeminen posteri, joka painatetaan perjantaiksi, hackathonin grande finaleen.

Mutta sinänsä tässä ei ole mitään erityisempää hätää – datasta irtoaa katsottavaa ja mietittävää ja muutakin tarkentumista tapahtuu. Esimerkiksi Mark tuli siihen tulokseen, että meidän on keskittyvä ajanjaksoon 1667–1800 (”The Long Seventeenth-Century”) sen vuoksi, että Lontoon palon (1666) seurauksena kustannustoiminta meni koko lailla uusiksi, ja tämä tietysti vaikutti mm. kustantajien sijainteihin perusteellisesti. Tarkasteluun otettiin mukaan myös Lontoon kahvilat, jotka olivat tärkeitä solmukohtia kirjoittajille ja kustantajille. Pubit jätettiin vielä toiseen kertaan.

Itse pukkaan esityskalvoa tapaustutkimuksesta eli George Berkeleyn julkaisuhistoriasta, esitellen siinä ohessa tarkemmin yhden kustantajan eli Tonsonin kustantajadynastian (Tonson-tapaustutkimus siirtyi sittemmin Mathildalle).

Välitilinpäätös eli esityksen ensimmäinen versio meni ihan hyvin, vaikka moni asia oli vielä varsin alustava ja visualisoinnit sinnepäin. Tutkimuskysymykset alkoivat kuitenkin olla pääosin kondiksessa, samoin tapaustutkimukset ja kaiken kaikkiaan lievä voittajafiilis alkoi hiipiä pintaan. Tämä tietenkin näkyi esitystä seuranneessa illanvietossa, jossa saattoi nauttia hieman herkuista ja virvokkeista ja pyyhkiä hikeä otsaltaan. Ryhmäkuvakin otetiin Tuomiokirkon rappusilla, vaikka joku ehdottikin sen ottamista panssarivaunun päällä – Senaatintorilla oli nimittäin menossa armeijan näytös. Ilta jatkui vielä yhteisöllisissä merkeissä, toisilla pitkäänkin. Itse hilpaisin kauneusunille kohtuullisen aikaisin.

Torstai-perjantai 31.5. & 1. 6.

Rakas päiväkirja! Kaksi päivää on mennyt hyvin nopeasti, kuin unessa. Hieman ryytyneenä ja vajailla unilla torstai taittui nopeasti ja kiihkeästi, sillä akateeminen juliste oli saatava valmiiksi ja toki myös tärkeimmät aiheet oli siihen jotenkin saatava mukaan. Ryhmämme teki julisteesta vanhan sanomalehden näköisen esityksen 1600-luvun englantilaisen kustannustoiminnan kehityksestä ja ominaispiirteistä tapaustutkimuksineen. Hieno siitä tuli ja interaktiivinen karttammekin saatiin mukaan. Keksimme lehden nimeksi London Phoenix, mikä viittaa kustannustoiminnan uuteen heräämiseen Feenix-linnun lailla Lontoon palon jälkeen. Kiire näkyi osallistujien kasvolla eikä edes lounaalle maltettu lähteä. Niinpä päätettiin tilata pizzaa ja kolaa kunnon nörttityyliin.

Oma torstaini eteni maailman ensimmäistä tekijänoikeuslakia (1710) tutkiessa. Se sopi hyvin, sillä olen päivätyössäni viime aikoina selvitellyt tekijänoikeuslisenssejä, ja tehtävä antoi siihen hyvää historiallista taustaa. Tekijänoikeuslailla oli suuri vaikutus brittiläiseen kirjankustannustoimintaan ja se myös paransi kirjailijoiden asemaa melkoisesti. Siitä seurasi myös paljon riitoja oikeuksistaan kiinni pitävien kustantajien ja muiden julkaistavaa jahtaavien välillä.  Torstaina lopuksi vielä viimeiset punnerrukset posteria varten: oikeat logot paikoilleen, fontit yhdenmukaiseksi ja kirjoitusvirheet korjatuksi. Slack-kommunikaatiovälineessä viimeisin merkintä löytyi klo 23.29.

Posteristamme tuli kyllä aika hieno!

Mutta se torstaista, nyt kohti Minerva-toria! Esitys ja posterisessio odottavat. Pakko myöntää, että perjantai meni aika sumussa – viime hetkien fiksauksia ja täydennyksiä aikamoisessa kiireessä. Tarkoitus oli vielä harjoitella esitys ennen lounasta ja h-hetkeä, mutta eihän siihen jäänyt aikaa. Kesken aamua tuotiin painotuore juliste pöytään, mikä lisäsi kyllä fiiliksiä melkoisesti.

Oma aamupäiväni meni viime hetken idean parissa: rykäisin James Ravenin teoksen ja muutaman muun lähteen pohjalta reseptin onnistuneeseen kustannustoimintaan 1700-luvulla – siitä voi ehkä jopa muutama nykyajan kustantajakin löytää pari vinkkiä! Toinen roolini oli toimia Minerva-torin dj:nä. Mutta kuten alta näkyy, homma oli jo varsin hyvin pulkassa ja hymykin lähti helpommin kuin torstaina.

Vähän ennen esitystä alkaa hymy olla herkässä.

Lounaan jälkeen hypättiin sitten suoraan tuleen – meidän vuoromme oli aika alussa, mikä on aina hyvä. Kaikki ryhmän jäsenet esittelivät ne esityskalvot, joista olivat lähinnä vastuussa, ja minun osalleni tuli esitellä tekijänoikeuslakia, kustantajien menestysreseptejä ja Berkeleyn kustannushistoriaa. Tartuin mikkiin hyvillä mielin, suositellen suurelle yleisölle tervaveden hyviä ominaisuuksia. Toinen roolini esityksessä oli toimia kellokallena, mutta pakko myöntää, että yritykseni tyrkyttää kännykän kelloa puhujan naamalle, ikään kuin hienovaraisena vihjeenä siitä, että aikamme on loppumassa, ei ihan onnistunut. Jonkin verran meni yliajalle, mutta onneksi valttikorttimme, Davidin kartta teki niin suuren vaikutuksen, ettei kukaan muu muistanut vahtia ajankäyttöä. Ohi on! Puh!

Onnellisuusryhmä esittää.

Kaikki esitykset olivat kovatasoisia ja kiinnostavia, vaikka onkin sanottava, että itseäni kiinnostivat eniten ”onnellisuusryhmän” some-tutkimus (yllä) ja ”Lalli-ryhmän” Piispa Henrikin surmavirsi-tulkinnat. Iltapäivä meni mukavasti niitä katsellessa. Mark huomioi, että siinä missä kaikilla muilla oli viimeisessä kalvossa kiitokset, meillä oli sen tilalle lähteet. Aikamoisia hikareita!

Ai niin! Unohdin kertoa, että ryhmien esityksiä edelsi hackathonin vetäjien äärimmäisellä tarkkuudella dokumentoitu tutkimus kahvinkulutuksesta, jossa ryhmämme paljastui suurimmaksi kahvisiepoksi ja David koko porukan kovimmaksi kahvinjuojaksi. Jei!

Vitaalia informaatiota.

Esityksien jälkeen ihailtiin postereita ja maisteltiin kuplivaa. Posterin edessä pyöri tasaisesti porukkaa (lopputilaisuus oli avoin kaikille kiinnostuneille) ja interaktiivista karttaamme saattoi kokeilla edessä olevalla pöydällä. Hyvin meni, mutta menköön! Se oli sitten siinä, hiukan erilainen työviikko. Sitten kotiin, jossa kieltämättä tuntui kaiken tämän jälkeen vähän tyhjältä.

Viimeinen etappi eli posterisessio. Kartta oli koneella kokeiltavissa.

Jälkitunnelmia

Kaikkiaan hackathonista jäi hyvin positiivinen loppuvaikutelma. Vaikka tulosten alustavuudesta ei ollut epäselvyyttä, tuntui siltä, että on todella saanut jotakin aikaiseksi. Periaatteessa työtä voi toki jatkaakin (esimerkiksi Piispa Henrikin tulkintoja aiotaan jatkaa vielä artikkelin muodossa hackathonin jälkeenkin). Ryhmämme työ jatkunee myös jossakin muodossa Comhis-yksikössä ja listasimme esityksen loppuun tulevia kehityskohteita aiheisiin liittyen. Vetäjien lisäksi myös Iiro toimii yksikössä ja saattaapa Davidkin saada vielä toimeksiannon jonakin päivänä… eli eiköhän uurastus kanna hedelmääkin!

On myös selvää, että runsaassa viikossa täysin uudenlaista metodologiaa ei oteta vielä haltuun, koska aikaa opetteluun ei välttämättä ole. Kuitenkin syntyi jonkinlainen kokonaiskuva siitä mitä digitaalinen ihmistiede voi olla ja minkälaisia asioita sen parissa voidaan tutkia. Uskoisin, että jatkossa omia tutkimuskysymyksiä miettiessä tulee paljon helpommin ajateltua, miten kvantatiivisia menetelmiä voitaisiin hyödyntää.

Hackathon ja avoin tiede

Koska tämä on avoimen tieteen blogi, voisi vielä lopuksi miettiä hiukan hackathonin suhdetta avoimeen tieteeseen. Kuten on tullut ilmi, pääosa koodaajien työstä perustui tietokantoihin ECCO ja ESTC, jotka ovat lisensoituja aineistoja. Ryhmien jäsenten piti myös allekirjoittaa sitoumus siitä, että niistä irroitettua dataa ei saa jakaa edelleen. Tästä syystä myöskään interaktiivista karttaamme ei voi linkata tähän, niin mukavaa kuin se olisikin.

Humanistit toimivat sekä kirjojen että avoimien lähteiden pohjalta, joista käytetyin taisi olla  Wikipedia. Voi ehkä sanoa, että raakadatasta noin neljäsosa oli peräisin avoimista lähteistä, vaikkakin lähdekritiikki voisi ”oikeassa” tutkimusprojektissa vaatia vielä hieman kehittämistä.

Lisensoidun datan käyttö rajoittaa tietysti tulosten avointa jakamista, sillä ”tutkimuksen” mukana ei voi jakaa suurinta osaa siitä datasta, johon se perustuu. Toisin sanoen hackathon-tutkimuksemme ei varsinaisesti ollut toistettavissa. Voi ajatella, että mikäli käytössä olisi ollut avoin datasetti, ehkä joku olisi innostunut kehittämään projektia eteenpäin raakadatan pohjalta ja hiomaan analyysimenetelmiä sofistikoituneemmaksi. Toisaalta on myös sanottava, että jo tälläkin avoimella aineistolla oli suuri merkitys – jos kaikki lähdemateriaali olisi pitänyt etsiä kirjoista, kahdeksan päivää ei olisi riittänyt mihinkään.

Digihumanistien työ luo myös edellytyksiä avoimen tieteen tekemiseen. Esimerkiksi ECCO-tietokannan aineistoa on siivottu jo monen vuoden ajan Comhis-yksikössä eikä meidänkään tuloksemme olisi luultavasti syntynyt ilman tätä tärkeää työtä. Kun siivoustyö on suoritettu ja datan perusteella tehdyt tutkimukset julkaistu, on mahdollista neuvotella kustantajan kanssa siivotun datasetin julkaisusta avoimena, joka mahdollistaa edelleen paljon uutta tutkimusta.

On myös muistettava, että hackathonin lopputulokset esitettiin avoimessa yleisötilaisuudessa, joka myös striimattiin. Posterisessiossa tekijät saattoivat myös kertoa tutkimuksensa yksityiskohdista. Ehkäpä hackathonia voidaan sanoa siis suhteellisen avoimeksi tieteeksi!

Kirjoittaja työskentelee tietoasiantuntijana Helsingin yliopiston kirjaston Avoimen julkaisemisen palvelukeskus-hankkeessa