Kansalliskirjaston digitaalisia aineistoja tutkijalle

Ajoittain http://digi.kansalliskirjasto.fi -sivuston palaute-kanavan kautta tulee kysymyksiä siitä, kuinka sanomalehtiaineiston saisi käyttöön tutkimuskäyttöön ja vaikka tekstinlouhintaan. Aviisi-projektin puitteissa tähän on nyt rakennettu alustava malli, joten otathan yhteyttä Kansalliskirjaston digitointi- ja konservointikeskuksen asiakaspalveluun, jos tällaista tarvitset.

Aineistoa käyttöön

Sanomalehtiaineistojen ALTO-XML-muotoiset sivutekstit ovat jo saatavilla yhteistyön tuloksena Fin-Clarin konsortion kautta Kielipankissa vuosilta 1771-1874    joko valmiiksi laskettuina n-grammeina   tai zip-pakettina .

Pyydämme, että jos käytät Kansalliskirjaston digitaalisia aineistoja, niin ilmoitathan siitä esim. digi.kansalliskirjasto.fi -sivuston palautteen kautta kautta.  Koostamme eri käyttötarkoituksista listaa ja yritämme yhdistää aineistojen parissa tekeviä eri puolilta. Lisäksi kommentit aineistosta ja toiveista sen suhteen ovat myös tervetulleita. Kansalliskirjasto osallistuu myös Avoimen Tieteen hankkesseen (ATT-hanke) .

Tekstinlouhintaa digitaalisista aineistoista

Jos tekstinlouhinta ja digitaaliset ihmistieteet (Digital Humanities, DH) kuulostaa kiinnostavalta, niin kannattaa tutustua 2015 lokakuussa alkaneeseen digitaalisten ihmistieteiden opetusohjelmaan. Opetusohjelmassa on erilaisia kursseja, jotka pureutuvat DH:n eri osiin, joten ne soveltuvat monien eri alojen opiskelijoille. Mm. Fin-Clarin järjestää sanomalehtiaineistojen käsittelystä omia osuuksiaan ja Kansalliskirjasto luennoi myös omista kokoelmistaan ja niiden sisällöistä tulevana syksynä.

Työkaluja

Työkaluja tekstinlouhintaan käytiin läpi jo kevään 2015, Digital Humanities Hackathonissa   , josta löytyy sekä esimerkkejä mitä aineistoista saa tutkimalla irti, että myös esimerkkejä ja infoa työkaluista joita käytettiin. HFST, Omorfi lienevät tuttuja, mutta mieluusti kuulemme kokemuksia mm. Tesseractin tai muiden ohjelmistojen käytöstä, joten lisää suosikkisi kommenttina.