Hackathonit ja aineistot

Hack4Fi 2018 (5.-7.10.)

Perinteinen kulttuuriperintöaineistojen hackathon on tänä vuonna 5.-7.10. https://hack4.fi/ . Aineistoja on jälleen noin tusinalta organisaatiolta, ja mahdollisuuksia onkin taas monia: https://hack4.fi/2018-tracks/ , joten on kiintoisaa nähdä mitä tämän kerran uudet ja mahdollisesti palaavat osallistujat keksivät. Rekisteröityminen lienee vielä auki, joten hop hop viikonloppua varaamaan tälle.

WIDE – open science hackathon (26.-28.10.)

Hieman toisen tyyppinen hackathon on avoimen tieteen WIDE, jossa pyritään lähentämään tiedettä ja yhteiskuntaa, ja jossa erilaiset osallistujat voivat tutustua toisiinsa ja ratkaista pulmia joko CODE- tai GENERALIST-säikeessä. Koodauspuolella ainut esiehto on, että oma ratkaisu hyödyntää  listattuja rajapintoja tai aineistoja . Palkinnot tässä hackathonissa ovat huimat, joten kannattaa tuoda omia iltakoodailuja vaikka tähän tapahtumaan muiden kanssa kehitettäväksi. Jos lokakuun alun tapahtuma tuli liian pian, tähän vielä voi ehdotella 2-5 hengen ryhmää, takarajana 11.10. rekisteröitymiselle.

 

Hackjunction (23-25.11.2018)

Euroopan suurin hackathon, sanoo hackjunctionin etusivu. https://hackjunction.com/  järjestetään Helsingissä marraskuun alussa, kun ulkona on kylmää ja läppärin ääressä on hyvä lämmitellä. HJ:ssä on myös tapahtumia muilla paikkakunnilla, joten sivustolta voi vilkuilla missä.

Ultrahack (30.11.-2.12.+)

Ultrahackissä yhdistetään kehittäjiä teknologisteihin ja yritetään löytää kehitettäviä innovaatioita, joilla ratkaistaan maailman suurimpia haasteita. Yhteistyö on siis olennaista.

 

HAMR 2018 (21-22.9.)

ISMIR-konferenssin perjantai ja lauantai oli varattu HAMR 2018 hackathonille. Ohjelman järjestäjänä oli Deezer, joka on paikallinen musiikin suoratoistopalvelu, ja joka myös sponsoroi ko. tapahtumaa. Heiltä oli kolme järjestäjää, jotka hoitivat rekisteröitymisen, alustuksen ja auttoivat käytännön asioissa päivän aikana. Deezerillä oli myös kätevä tila hackathoniin – yhdistetty aula+keittiönurkkaus, jossa oli paljon tyhjää tilaa. Hackathonin alkaessa avoin tila täytettiin pöydillä ja tuoleilla, johon kukin ryhmä asettui jatkojohtojensa kanssa. Kiinnostavaa on myös se kuinka helpolla osallistujat saadaan osallistumaan, järjestäjät yksinkertaisesti kysyivät, mitä kukin haluaisi tehdä ja tässä esimietintäsessiossa löytyikin noin 7 eri ajatusta, joihin muut osallistujat saivat tarttua. Oletan, että avauspitchaajia ei oltu värvätty, vaan kyseessä oli aidot “hupi-ideat”, joita osallistujat olisivat muutenkin tehneet. Hackatonissa tosin on mahdollisuus ryhmäytyä, ja saada enemmän tekijöitä ja samanmielisiä aihetta ideoimaan.

DHH hackathoneista poiketen Deezerin mallissa, hackathonin tuotokset tehtiin pull requesteina Deezerin oman hackathonin perushakemiston alle. Kukin projekti omassa haarassaan: https://github.com/deezer/hamr2018/branches/active , joka pitääkin toteutukset kauniisti yhdessä.

Aineistojen toimittaminen olikin kiinnostavaa – HAMR:lle perustettiin slack-ryhmä, johon osallistujat kutsuttiin ja jossa sitten jaettiin avauskalvot ja muutamia linkkejä esim. Deezerin rajapintaan. Aineistoista ei kuitenkaan selitetty sen enempää vaan APIa pääsi tutkimaan ihan itse ja luonnollisesti slackissa sitten oltiin valmiina vastaamaan kysymyksiin kuten myös fyysisesti hackathonin tilassa. Palkintona hackathonissa oli mainetta ja kunniaa, ja eeppiset vasarat, kuten luonnollisesti ham..r-nimisessä tapahtumassa kuuluukin.

Hackathonit ovat kiinnostavia, seurasipa tai osallistuipa niihin missä roolissa tahansa. Järjestäjät pitävät osallistujista hyvää huolta ja pääasiahan on saada pari päivää aikaa, jonkin kiintoisan jutun tekemiseen. Apuna vielä useampi henkilö, joten pulmia voi ratkaista yhdessä toisten kanssa ja siten ehkä myös laajentaa ratkaisun vaikuttavuutta. Rohkeasti vain kokeilemaan! Viimeistään lopputulosten esittely on kiinnostavaa, kun näkee, kuinka osallistujat ovat ideastaan innostuneet.

OCR:n korjauksen testiaineistoa

Tekstintunnistus https://digi.kansalliskirjasto.fi – palvelussa pohjautuu ALTO XML tiedostoihin, jotka digitoinnin jälkikäsittelyohjelmisto luo digitoiduista sivukuvista. OCR eli Optical Character Recognition, on menetelmä jolla tekstintunnistusta tehdään. Aina välillä saamme kyselyitä siitä kuinka sivuja tehdään, korjataan ja pääsisikö sivutekstejä  korjaamaan. Alta näet esimerkin kuinka korjaus onnistuisi käsin.

OCR:n korjausta

Erityisesti fraktuurasivut, joita on tehty aiemmilla ohjelmistoversioilla sisältävät virheitä johtuen monimaisista syistä. Ilman automaattista korjausta, käsin korjaaminen menisi näin:

Etsi haluamasi sivu, esim. https://digi.kansalliskirjasto.fi/sanomalehti/binding/431884?page=1&ocr=true ja tallenna sivun oikeasta laidasta ALTO XML-linkistä XML-muotoinen sivu.
XML-tiedostossa on rakenteinen tiedostomuoto, jossa kukin sana löytyy riviltään näin, jossa CONTENT-osio kertoo sanan, tai sanan alun jos kyse on taivutetusta sanasta.

Avaa XML-tiedosto sitten koneellasi jollakin tekstieditorilla kannattaa etsiä editori (esim. Visual Studio Code), joka osaa XML-muodosta korostaa eri osat, niin käsittely helpottuu.

Jos alkuperäisessä XML tiedostossa on rivi näin:

String ID="P1_ST00016" HPOS="1975" VPOS="1102" WIDTH="79" HEIGHT="31" CONTENT="Gräs" WC="0.90" CC="3111"/>

Sen korjaus vaatisi, että saisimme tuon XML tiedoston siten, että CONTENT-kohdassa on sana niin kuin sen pitäisi olla, eli esim.

String ID="P1_ST00016" HPOS="1975" VPOS="1102" WIDTH="79" HEIGHT="31" CONTENT="Eräs" WC="0.90" CC="3111"/>

Muina sääntöinä voisi mainita, että XML-tiedoston pitää vastata lehdessä olevaa kirjoitusasua, esim. w-kirjainten käyttö tulee säilyttää, eli pysytään vanhassa kirjoitusasussa. Ja jos lehdessä on kirjoitusvirhe, se tulisi jättää, jotta aineisto pysyy autenttisena ja oikeana.

Jos tällainen kiinnostaisi, laita viestiä tai kokeile itse. XML:n editointiin on myös oma verkkotyökalunsa, jota voisi jatkokehittää jos tällainen kiinnostaisi, esim. kesähupitöinä mahdollisten sadekelien varalta. OCR-korjauksen testiaineistoksi korjatut XML-tiedostot olisi kullan arvoisia ja lisäksi mahdollisesti jo niitä voisi suoraan tuoda jatkossa digiin näytettäväksi alkuperäisen sijasta ja toimisi testiaineistonakin.

Muita avun tapoja.

Digitalkoot-väki voi osallistua myös testaamalla digin seuraavaa versiota https://digi-testi.kansalliskirjasto.fi -osoitteessa, ja lähettämällä palautetta, jos jokin ei näyttäisi toimivan odotetusti. Lisäksi leikkeiden teosta on hyötyä, koska niiden avulla löytyy kiinnostavia teemoja, joita voi jatkaa eteenpäin. Jos käytät palvelua, niin kerro toki siitä eteenpäin muillekin, niin saamme lisää käyttöä ja siten vaikuttavuutta suomalaiselle kulttuuriperinnölle.

Lisäksi jos haluat liittyä Kansalliskirjaston ystäviin, lisätietoja Kansalliskirjaston ystävätoiminnasta löydät verkkosivuiltamme, https://www.kansalliskirjasto.fi/fi/lahjoita

 

Poikkea vapaakappalekirjastoon

Perinteisenä kesäkauden muistutuksena, tiedoksi, että Kansalliskirjaston tallettamia erilaisia kulttuuriperintöaineistoja on saatavissa kuudessa yliopistokirjastossa ympäri Suomen. Näissä kirjastoissa, erityisissä kulttuuriperintötyöasemilla on mahdollista lukea, selata ja hakea kaikkea digitaalista aineistoa: lehtiä, aikakauslehtiä, kirjoja ja myös tv- ja radioaineistoa KAVI:n arkistoista.

 

Digitalia-projekti kävi esittäytymässä vapaakappalekirjastojen päivillä 29.5. ja samalla kerrottiin uusista aineistoista ja toiminnoista, joita mm. Digitalia-projektin tutkimuksen myötä on digi.kansalliskirjasto.fi-palveluun toteutettu. Uusina aineistoina voi mainita esimerkiksi kaikkialla auki oleva Rajamme Vartija-lehti, mutta kävimme myös läpi tämän vuoden digitointilistaa Kansalliskirjaston Digitoimme nyt-sivun avulla. Esimerkiksi jos vaihdat digissä hakutulokset ‘Viimeisimmät ensin’ näet listassa ‘Sosialisti’ -lehteä, joten jos haluat uppoutua uuteen aineistoon johon tutkijat eivät vielä ehkä ole tarttuneet, niin nämä “uusvanhat” lehdet ovat hyvä valinta.

 

Aineistoja esiin tutkimuksen avulla

Tänään sananvapauden päivänä on hyvä muistaa myös mitä hyötyjä tutkimuskäytöstä aineistoille tulee. Tutkimus voi löytää aineistoista, erityisesti suurista kokonaisuuksista, uusia tapoja tulkita historiaamme ja tuoda historiallisia aineistoja paremmin esille. Vaikka tutkimuksella on omat lähtökohtansa, tutkimus yleensä tuo aineistoistakin esille kiinnostavia puolia, joita ehkä itse aineistoa koonnutkaan ei välttämättä huomaa.

Helsingin yliopiston digitaalisten ihmistieteiden kurssin projektityönä on ollut tapana järjestää hackathon, jossa onkin tietojenkäsittelytieteen ja humanististen ja muiden opiskelijoiden yhteistyönä luotukin kiinnostavia kokeiluja ja saatu väitöskirjoja alkuun.

Eräänä vuonna tutkittiin sosialismin tuloa Suomeen, jossa tehtiin kiinnostavia visualisointia sosialistisesti suuntautuneiden lehtien termistöstä suhteessa kaikkiin lehtiin. Tämän ryhmän tuotos sai sen verran huomiotta, että pääsi myös vuoden 2015 Open Finland Challengen finalistiksi

Termin toistuvuuden aikajana – sosialistiset lehdet

DHH16:sta sanomalehtiin löytyi taas kiinnostuneiden ryhmä ja tällöin tutkittiin vuosisadan alun siirtolaisuutta Suomesta Amerikkaan ja verrattiin tätä siirtolaisuuden tilastoihin ja aiempaan tutkimukseen, tutkien sekä artikkeleita että mainoksia.

Sanomalehtiryhmän työn otos DHH16

Vuoden 2017 DHH hackathonissa sanomalehdistä tutki kuinka aineistoista voisi tunnistaa runoutta, jotka olivat 1900-luvun alun sanomalehti- ja aikakauslehtiaineistoissa yleistä, mutta joita ei ole erikseen aineistosta poimittu. Apuna toimi mm. artikkelihakemisto, jossa joitakin runoja oli jo listattuna, jota käytettiin opetusaineistona muiden runojen löytämiseksi.

 

Tämän vuoden hackathon DHH18 on jo suunnitteilla ,joten on jälleen kiinnostavaa nähdä mistä aiheista ja aineistoista osallistujat kiinnostuvat. Ylemmistä esimerkeistä löytää hieman enemmän tietoa DHH15 , DHH16 ja DHH17-blogauksista, joista löytyy myös linkit hackathonin aikana kehitettyihin koodeihin.

Antaisitko sinä aineistojasi louhittavaksi hackathoniin? Mitä aineistoa toivoisit?