Aineistoja esiin tutkimuksen avulla

Tänään sananvapauden päivänä on hyvä muistaa myös mitä hyötyjä tutkimuskäytöstä aineistoille tulee. Tutkimus voi löytää aineistoista, erityisesti suurista kokonaisuuksista, uusia tapoja tulkita historiaamme ja tuoda historiallisia aineistoja paremmin esille. Vaikka tutkimuksella on omat lähtökohtansa, tutkimus yleensä tuo aineistoistakin esille kiinnostavia puolia, joita ehkä itse aineistoa koonnutkaan ei välttämättä huomaa.

Helsingin yliopiston digitaalisten ihmistieteiden kurssin projektityönä on ollut tapana järjestää hackathon, jossa onkin tietojenkäsittelytieteen ja humanististen ja muiden opiskelijoiden yhteistyönä luotukin kiinnostavia kokeiluja ja saatu väitöskirjoja alkuun.

Eräänä vuonna tutkittiin sosialismin tuloa Suomeen, jossa tehtiin kiinnostavia visualisointia sosialistisesti suuntautuneiden lehtien termistöstä suhteessa kaikkiin lehtiin. Tämän ryhmän tuotos sai sen verran huomiotta, että pääsi myös vuoden 2015 Open Finland Challengen finalistiksi

Termin toistuvuuden aikajana – sosialistiset lehdet

DHH16:sta sanomalehtiin löytyi taas kiinnostuneiden ryhmä ja tällöin tutkittiin vuosisadan alun siirtolaisuutta Suomesta Amerikkaan ja verrattiin tätä siirtolaisuuden tilastoihin ja aiempaan tutkimukseen, tutkien sekä artikkeleita että mainoksia.

Sanomalehtiryhmän työn otos DHH16

Vuoden 2017 DHH hackathonissa sanomalehdistä tutki kuinka aineistoista voisi tunnistaa runoutta, jotka olivat 1900-luvun alun sanomalehti- ja aikakauslehtiaineistoissa yleistä, mutta joita ei ole erikseen aineistosta poimittu. Apuna toimi mm. artikkelihakemisto, jossa joitakin runoja oli jo listattuna, jota käytettiin opetusaineistona muiden runojen löytämiseksi.

 

Tämän vuoden hackathon DHH18 on jo suunnitteilla ,joten on jälleen kiinnostavaa nähdä mistä aiheista ja aineistoista osallistujat kiinnostuvat. Ylemmistä esimerkeistä löytää hieman enemmän tietoa DHH15 , DHH16 ja DHH17-blogauksista, joista löytyy myös linkit hackathonin aikana kehitettyihin koodeihin.

Antaisitko sinä aineistojasi louhittavaksi hackathoniin? Mitä aineistoa toivoisit?

 

Digitalia & Heldig

Digitalia-projektissa tehtyjä ja tulossa olevia asioita esiteltiin Kimmo Kettusen toimesta Heldig-foorumissa 13.4.2018. Heldig-foorumi on Helsingin yliopiston uudehkon keskuksen tapahtumien sarja, jossa esitellään eri tutkijoita ja heidän alojaan ja tällä kertaa pääsimme esittelemään Kansalliskirjaston aineistoja, joita osa tutkijoista olikin jo aiemmin käyttänyt.

Kimmon esityksessä kerrottiin aineistoista yleensä ja OCR-korjausten eduista suhteessa nimien poimintaa, jossa ollaan jo saatu alustavia lupaavia tuloksia. Ensimmäisenä kohdeaineistona onkin Uusi Suometar, joka on sopivan kokoinen aineisto, jolla löytyy jo moninaisia sivutyylejä, mm. palstamääriä sen julkaisuhistorian aikana, mutta myös henkilöitä ja paikkoja Suomen historian eri vaiheista.

Kokeilu pienellä lehtien joukolla

Heldig-foorumissa esiteltiin myös hiukan avointa dataa, Kansalliskirjaston datakatalogistakin, löytyvien http://digi.kansalliskirjasto.fi OAI-PMH ja OpenURL-rajapintojen kautta, jotka, vaikka perinteisiä kirjastorajapintoja ovatkin, soveltuvat myös ohjelmistokehittäjille. Avoin data mahdollistaa erilaisten palvelujen käytön, kuten esimerkiksi http://voyant-tools.org/ , joka mahdollistaa helposti tekstien analysoinnin suoraan selaimessa. Sitä toki jäimme pohtimaan, kuinka suuremmat aineistot parhaiten työkalussa toimisivat, ja työkalun kielivalikoista suomi puuttui vielä, joka vaatii vähän esitöitä, ennen kuin palvelusta saa kaiken irti.

Kolmantena aineistona kävimme myös läpi Verkkoarkistoa, josta näkee yleisessä verkossa tiedot siitä mitä on kerätty ja itse aineiston paikanpäällä vapaakappalekirjastoissa. Keskustelua herätty youtube-aineiston laatu ja valinnat, koska verkkoaineiston määrähän kasvaa tunnetusti koko ajan. Teemakeräykset ovatkin siis tärkeitä tiettyjen tapahtumien tai teemojen keräilyyn. Tutkijoilta tuli myös kiinnostuksen ilmaisuja aineiston hyödyntämiseen tutkimuksessa…

Jos kiinnostaa se kuinka tutkijat aineistoja käyttävät, käy siis katsomassa kevään aikataulua ja mitä kaikkea tutkijat ovat tekemässä.

At DHN18 conference

Digitalia was well represented in the Digital Humanities i Norden conference, which was held during 7-9.3.2018 in Helsinki.

Results and work of Digitalia was presented for example, in a short paper called: “Creating and using ground truth OCR sample data for Finnish historical newspapers and journals” (paper and slides). This paper was one of the few,  which was given the label of distinguished short paper. Also the notification of the ground truth material got some interests in social media, so maybe we will have others who are interested to improve OCRring methods to experiment with the base data. We got also some ideas on how to improve the data packages, which we can probably improve down the line.

Ongoing work was also visible in the poster session via poster, which describe all of the ground breaking work targeted to make next steps with processing the materials easier. The poster was titled: “Research and development efforts on the digitized historical newspaper and journal collection of The National Library of Finland”. Based on the amount of people who were using newspapers or especially Finnish newspapers, here is opportunity to do good improvements, which benefit many researchers all the way.

All in all whole conference was full of interesting topics and researchers of multiple fields, which shows the vitality of the “digital humanism scene” in Finland, but also in whole of Nordics. There were also many papers of note that related to the National Library of Finland via newspapers or other listed data:

  • Semantic National Biography of Finland  (paper)
  • Digitised newspapers and the geography of the nineteenth-century “lingonberry rush” in Finland. (paper)
  • Sculpting Time: Temporality in the Language of Finnish Socialism, 1895–1917 (paper)
  • Two cases of meaning change in Finnish newspapers, 1820-1910 (paper)
  • Geocoding, Publishing, and Using Historical Places and Old Maps in Linked Data Applications (paper)
  • A long way? Introducing digitized historic newspapers in school, a case study from Finland , which has continued from earlier project. (paper)
  • Local Letters to Newspapers – Digital History Project (paper)

Potentially interesting also for further development were for example, paper about Sentimentatior full title “Sentimentator: Gamifying Fine-grained Sentiment Annotation” (paper), which enables easy creation of learning data of sentences with annotated sentiments with number of predefined sentiment categorization. The talk “The Nordic Tweet Stream: A dynamic real-time monitor corpus of big and rich language data” (paper) utilized social media data and was preparing online tool for access while still keeping in mind the generic open data needs. The recently started Wikidocumentaries project (paper) is a interesting case as it could act as a bridge between local history endeavours and citizen or local scientists.

All in all very thought-provoking conference and it was super exciting that it was in Helsinki, so it was easy to visit by Finnish DH people and naturally from the Nordic countries. Discussions during breaks were lively and gave more details to the background to various  papers and presentations there were.

 

Sanomalehtikuvitusten luokittelusta

Tiivistelmä: TensorFlow:lla voi pienten alkusvalmistelujen jälkeen luokitella myös sanoma- ja aikakauslehtien kuvia. Taustaa

Kuvitusten luokittelua – miksi?

Digitalia-projektissa tavoitteena on myös tutkia hiukan kuinka sanoma- ja aikakauslehtien erilaisia osakohteita, kuten kuvituksia voisi käsitellä ja tehdä helpommaksi löytää. Aiemmin digiin on tehty mahdollisuuksia hakea kuvituksia aineistoihin vuoteen 1920 asti, ja viime vuoden lopulla tätä jatkettiin 1929 asti ja osin pidemmällekin. Kuvitusten haku pohjautuu nyt jälkikäsittelyn työhön, joka viedään tietokantaan ja lisätään hakuindeksiin. Nyt suunnitteilla on löytää keinoja kuinka kuvituksia voisi tehdä paremmin löydettäväksi. Yksi tapa tähän on takastella itse kuva-aluetta tarkemmin ja selvittää kuvan sisältöä, esimerkiksi mikä olisi kuvan pääsisältö. Tätä varten nyt kuva-alueita on poimittu erilleen, jotta olisi mahdollista tehdä kokeiluja kuvien luokittelussa. Ongelma on osittain eri kuin modernien kuvien tai vaikka valokuvien luokittelussa, koska sanomalehti- tai aikakauslehtiaineisto tuo uutta pohdittavaa esimerkiksi kuvan koon, mahdollisen käytettävän kuvan puskurin tai harmaasävytaustan takia. Alun perin pohdimme, että olisi hyvä jos kuvassa olisi pieni ylimääräinen puskuri, joka antaisi hiukan kontekstia kuvaan, mutta näytti, että jotkin palvelut, jotka tekisivät kuvien luokittelua puskuri voi hämätä esimerkiksi aiheuttamalla kaikkiin kuviin aina avainsanan ‘paperi’ tai ‘teksti’.

TensorFlow

Kuvitusten käsittelyyn yksi mahdollinen koneoppimisratkaisu on Googlen kehittämä TensorFlow-alusta, jota päätimme kokeilla sanomalehtiaineistojen kanssa. Loimme opetusaineiston joistakin tyypillisimmistä kuviluokista, joita sanomalehdistä löytyy kuten ihmiset, rakennukset, kulkuvälineet, ja poimimme jokaiseen luokkaan siihen sopivia sanomalehtikuvia eri lehdistä.

Tensorflow analysoi kuvat omalla ohjelmallaan, joka luo sille kyvykkyyden tunnistaa kuvia joita sille on kerrottu:

python retrain.py --bottleneck_dir=./retrain/bottlenecks \
 -model_dir=./retrain --output_graph=retrained_graph.pb \
 --output_labels=./retrain/reretrain_labels.txt \ 
--image_dir ./opetuskuvat --how_many_training_steps=500  \
--summaries_dir=tf_files/training_summaries/"${ARCHITECTURE}

Prosessoinnissa menee hetki, mutta lopputuloksena syntyy tekstitiedosto opetetuista luokista ja ‘verkko’ opetetun aineiston piirteistä. Tensorboard-työkalun avulla voi myös monitoroida kuinka hyvin opetusaineisto voi olettaa toimivan.

Tämän jälkeen voikin jo kokeilla kuinka TensorFlow luokittelusta selviää kohdeaineiston kanssa. Kohdeaineisto valittiin toisesta lehdestä kuin itse opetusaineisto, jotta näkee hiukan mallin yleispätevyyttä.

python classify_image2.py --model= > luokitusdemo.log &

Saat yhden version ym. skriptistä TensorFlown tutoriaaleista  . Oma versiomme tekee hiukan nimeämismuutoksa ja siirtää kuvan halutun luokan mukaiseen alikansioon, josta on helpompi tarkistaa onko luokittelu osunut oikeaan. Opetuskuvien määrän, laadun ja kohdeaineistosta riippuu kuinka hyvin luokittelu onnistuu. Selkeät opetuskuvat, jossa kohde löytyisi eri näkökulmista voi olla yksi tapa jolla lopputuloksesta tulee paras mahdollinen. Kannattaa ehkä ajatella että koneoppiminen on hiukan kuin likinäköinen ihminen – suuret selkeät linjat erottuvat parhaiten, mutta tarkemmat yksityiskohdat vaativat hieman siristelyä – useampia opetuskierroksia tai lisää opetusdataa.

Muistathan rekisteröityä DHN18-konferenssiin konferenssin kotisivulla  ja jos esimerkiksi tällainen  ylläoleva kokeilu kiinnostaa, niin ilmoittaudu tiistain 6.3. Miniature histories -työpajaan, jossa lehtiaineistoja pohdimme. Kiinnostavaa olisi tietää mitkä kuvitusten pääluokat olisi kiinnostavia? Mistä löytyisi hyvää opetusaineistoa jotta voisimme sanoma- ja aikakauslehtien kuvitusten hakuun tehdä uusia mahdollisuuksia? Soveltuisivatko sanomalehtien kuvat joihinkin tutkimuskäyttöihin?  Löydät TensorFlow:n perusasetukseen, joka oman esimerkkimme taustalla myös toimii ohjeita sekä Linuxille että Windowsille, jota voit kokeilla jo etukäteen.

Aineistonhallintasuunnitelmatyöpajasta

Helsingin yliopiston kirjaston datatuki-työryhmä järjesti DMPTuuli-työpajan 19.6.2017 Helsingissä, Kaisa-talossa. Tavoitteena oli hackathon-maisesti pohtia erityisesti historian tutkijoiden näkökulmasta kuinka yleisesti hankesuunnitelmissa tarvittu aineistonhallintasuunnitelma tehdään ja voisiko näistä eri tapauksista luoda jonkinlaisen ‘arkkityypin’, josta uusia suunnitelmia tekevät voisivat hyötyä omia suunnitelmia tehdessään.

Alussa kävimme läpi hieman taustaa ja motivaatiota aineistohallintasuunnitelmille ja mitä rahoittajat ja arkistointikäytännöt vaativat. Viitattiin myös Suomen Akatemian ohjeistuksiin aineistonhallintasuunnitelmasta joista löysyy myös tarkennukset, mutta kannattaa tarkistaa onko omalla rahoittajalla  tarkempia ohjeistuksia.

Aineistolajeja osallistujilta

Dataa, pulmia, ratkaisuja

Osallistujat olivat monenlaisista tutkimusaiheista, joten aineistojen kanssa oli erilaisia käytännön pähkinöitä pohdittavaksi joissa ongelmat vaihtelivat eettisistä aina teknisiin. Miten mainita aineiston käyttöluvat, jos niitä ei olekaan kirjallisina? Missä kaikkialla aineistoja voisi säilyttää ja mitkä hyödyt ja riskit eri paikoissa on? Esimerkkinä kerrottiin mm. tietojenkäsittelytieteen puolella esitetty esimerkki, kun koodi on jo jaettu ja ns. “kasvamassa” eri palveluissa tai vaikka linux-jakeluissa, niin tarvitseeko samaa koodia enää pitkäaikaissäilyttää , kun evoluutio on hoitanut jo sen joka puolelle? Lisäksi pohdittiin työryhmissä eri tiedonhallintapaikkojen hyviä ja huonoja puolia, kenen käyttöehtoihin luotat ja miten itse voisi ennaltaehkäistä katastrofia aineistojen käytettävyyden suhteen.

Sisältö <> työkalu

Työryhmäosiossa keskusteltiin aineistonhallintasuunnitelmaan liittyviä kysymyksiä auki , kukin katsoen asiaa oman tutkimuksensa tai -aineistonsa näkökulmasta. Vaikka osa teki tätä DMP Tuuli työkalussa, niin työkalu sinänsä vaikutti suoraviivaiselta. Pulma on kuinka vastata aineistohallintakysymyksiin, joita työkalu tutkijan eteen laittaa. Kaikki kysymykset on oleellisia ja tavoite niissä on hyvä. Ytimessähän on varmistaa, että seuraavakin aineistoa käyttävä pääsee kärrylle siitä mistä aineistossa on kyse. Tutkimusdata pitäisi nähdä arvokkaana resurssina, jota voidaan käyttää myös myöhemmin, joten siitä huolehtiminen on merkittävä osa tutkimusprosessia useimmilla aloilla.  Kun käytännöt jo ovat hyvät, aineistohallintasuunnitelma antaa mahdollisuuden kirjoittaa ne talteen ja toisaalta jos vasta on aloittamassa tutkimusprosessia, niin sitten aineistonhallintasuunnitelman voi nähdä ohjeistavan oikealle polulle jo alusta lähtien. DMPTuuli-työkalu näyttää sekä suomalaisia että Helsingin yliopiston omia aineistonhallintaohjeita ja ajatuksia herättäviä kysymyksiä, vakiovastauksia ei ole annettu. Jossa toki puolensa ja puolensa – aineistoja on niin monia eri tyyppejä, joten yksi tapa ei käy kaikille ja saman tutkimusprosessin hankkeen aikana voi päästä käsittelemään useitakin erilaisia aineistotyyppejä.

Rohkeasti siis aineistohallintasuunnitelmia tekemään. Datatukiverkosto auttaa ja aina voi jutella kollegan kanssa, jos jokin aiheuttaa pulmia. Suunnitelman tulee olla mietitty omaan tilanteeseen sopivaksi, mutta aivan pikkutarkalle tasolle ei tarvitse mennä, kun kuitenkin ohjeispituus on noin 1-2 sivua, mikä on kuitenkin josuhteellisen paljon hakesuunnitelmien rajatusta sivumäärästä. DMPTuuli työkalu näyttäisi olevan hyvä apuväline, joten sen kysymysten avulla pääsee alkuun ja jos johonkin kysymykseen ei helpolla tulekaan vastausta, niin ainakin on aihe selvillä, joka tarvitsee selvittää.

Animated gif of getting RefWorks citation from digi

Itse jäin pohtimaan voisiko digi.kansalliskirjasto.fi -palvelun puolella luoda lisää mahdollisuuksia tutkijoille ja listata muutamia keinoja joilla sekä viitata, että käyttää aineistoihin, mutta asia vaatii vielä suunnittelua. Kommentoi alle, jos heti keksit jotakin, jota digiin voisimme kehittää.

Aika ja paikka: ma 28.8. ja ma 4.9. klo 10-12 (Kaisa-talo, Fabianinkatu 30, 5.krs, atk-luokka 5057). (Tilaisuus ei vaadi ilmoittautumista.)

 

Lisäksi keskustakampuksella järjestetään alkusyksystä kaikille tieteenaloille yhteisiä työpajoja, joihin teidän on toki myös mahdollista osallistua. Alla näiden kaikille yhteisten tiedot – ja huom. näihin tulee ilmoittautua e-lomakkeen kautta.

P.S. Lisää työpajasta Mildred-projektin blogissa.

P.P.S. Syksyllä järjestetään lisää työpajoja, joten tiedoksi historian tai muiden lähialueiden tutkijoille:

DMPTuuli workshops, City centre campus

Place:  IT class (5057; 5th floor) of the Helsinki University Main Library in Kaisa building (Fabianinkatu 30).

The location of the class can be checked here:

http://www.helsinki.fi/kirjasto/files/1614/5502/4087/paakirjasto_kerroskartat2016_eng.pdf

Thu, 24 August 2017 at 10-12 am

Tue, 29 August 2017 at 12-2 pm

Wed, 6 September 2017 at 2-4 pm

Thu, 14 September 2017 at 10-12 am

Mon, 18 September 2017 at 12-2 pm

Wed, 20 September 2017 at 2-4 pm

Enrollments by 18 August 2017:

https://elomake.helsinki.fi/lomakkeet/81078/lomake.html