Lehti- ja data-aineistoista meiltä ja muualta

 

Ruotsissa historiallisten aineistojen yleinen saatavuus kasvaa, kun siellä päästään digitoimaan loputkin välin 1734-1906 välin lehdistä.  Projekti laajentaa Ruotsin Kungliga Biblioteketin ja Ruotsin Kansallisarkiston aineistoja myös paikallislehtiin. Digitiointi on ollut tähän asti enemmän suurissa kaupunkien lehdissä, jolloin paikallisten uutislehtien osuus on ollut pienempi. Voikin miettiä tutkimuksia lukiessaan missä jutussa mainittu lehti onkaan julkaistu ja onko vaikka toiselta puolen Suomea olemassa vastaavanlaista tutkimusta. KB:n digitoinnin tekee mahdolliseksi Arcadia tutkimusinstituutin mittava lahjoitus, joka varmasti parantaa aineistojen saatavuutta ja tutkimuskäyttöä Ruotsissa ja ehkä jopa Pohjoismaissakin mittavasti. Suuret korpukset palvelevat tutkimusta ja erilaisia tutkimusaloja monipuolisesti, mahdollistaen keskittymisen joko tiettyyn nimekkeeseen, alueeseen tai jopa kaikkeen aineistoon ja ovat laajuudessaan yleiskäyttöisiä.

Datasettien haku

Uusi “datamaailma” on myös heräämässä, sillä nyt myös Google on lisännyt aiempien data-aineistojen portaalien lisäksi oman datasettien hakupalvelun . Hakupalvelu ei vielä sisällä kaikkea vaan esimerkiksi suomalaista materiaalia etsiessä, lähteeksi mainitaan  European data portal-palvelu, tai esim. CEICData. Onkin kiinnostavaa nähdä löytävätkö eri ground truth aineistot, joita käytetään algoritmien vertailussa ja voisikin epäillä, että  Suomessa  avoindata.fi- tai Etsin-palvelujen datasetit päätyvät aikanaan Googlen palveluun, Googlen tekemien ohjeiden avulla. Datalle löytyy monia säilytyspaikkoja, joten jotakin dataa voi joutua etsimään useampiakin paikkoja, joten palvelulle voi löytyä uskollisia käyttäjiä.

Avoimuudesta

“– voisi julkisin varoin ylläpidetty julkaisuarkisto olla aivan yhtä kelvollinen primäärinen julkaisupaikka kuin tieteellinen lehtikin”

kirjoittaa Heidi Laine tekstissään, jossa katsotaan avoimen julkaisemisen Plan S-raporttia, johon eurooppalaisten tutkimusrahoittajien yhteistyöelin on määritellyt pitkän tähtäimen tavoitteita tieteellisten julkaisujen julkaisemiseksi.  Julkaisuarkisto ei kuitenkaan veisi pois katselmointivaihetta ja esim. vaikka versiohallintaa (Github) voisi käyttää katselmointiin aivan hyvin, ja tuoreena kokemus OpenReview-palvelusta oli miellyttävä, kun artikkeliteksti oli näkyvillä, ja kommentit sai siihen kommentteina, jotka näkyivät kaikille, kuin myös omat vastaukset ja uudet versiot artikkeliehdotuksesta. Tosin toisaalta nyt kentällä on paljon irtopalloja, joten ehkä aluksi hyvä on avoin keskustelu ja ajatusten vaihto jonka myötä voidaan hiljalleen löytää yhteisesti uusia toimintamalleja.