Laadukkaan tutkimusaineiston tuottaminen vaatii osaamista

– Laadukkaan, avoimeen käyttöön sopivan datan täytyisi syntyä tutkimusprojektin edetessä ikään kuin oheistuotteena. Muuten on todella iso työ projektin lopussa muokata aineisto hyödynnettävään kuntoon, toteaa tutkija Joona Lehtomäki, jonka oma tutkimusryhmä (Conservation Biology Informatics Group) on avannut osan omasta tutkimusaineistostansa kotimaisen AVAA-julkaisualustan kautta.

Tutkimusprosessin myötä syntyvän laadukkaan aineiston tuottaminen edellyttää taitoja, jotka vaativat koulutusta. Lehtomäen mukaan datan hallinta ei sinänsä kuulu erityisesti avoimeen tieteeseen vaan jokaisen tutkijan perustyökalupakkiin.

– Väitän, että moni juoksee gradua aloittaessaan päin seinää, kun ei ole saanut koulutusta, siitä miten dataa pitäisi hallita. Lopputuloksena on monesti sekalainen kokoelma Excel-taulukoita, joista puolen vuoden jälkeen kukaan ei enää ota selvää. Ei edes tekijä itse.

Useimmilla tieteenaloilla käsitellään kuitenkin aineistoja, esimerkiksi biologiassa ei järjestetä juuri minkäänlaista opetusta aineistonhallintaan ja aineiston suunnitteluun.
– Yliopiston kirjastolla ja esimerkiksi Luomuksella on paljon osaamista aineistohallinnasta ja sen suunnittelusta. Erillislaitokset voisivat rakentaa uutta roolia tarjoamalla apuaan aineiston hallinnan koulutuksessa, Lehtomäki pohtii.

Suojelubiologit suojelevat dataansa

Joona Lehtomäki on itse luonnonsuojelubiologi. Hänen mukaansa juuri luonnonsuojelubiologien ja yleisemmin ekologian tutkijoiden keskuudessa tutkimusaineistoista näytetään olevan jostain syystä melko mustasukkaisia.

– Voisi ajatella, että luonnonsuojelutieteissä koettaisiin tärkeäksi datan avaaminen. Näin ei kuitenkaan ole. Tämä on hankalaa, sillä alan aineistojen avaaminen saattaisi hyödyntää yhteiskuntaa poikkeuksellisen laajasti. Akateemisen maailman lisäksi esimerkiksi järjestöt ja viranomaiset voisivat käyttää sitä.

Syyksi mustasukkaisuuteen Lehtomäki arvelee muilta aloilta tuttuja ongelmia kilpailussa muun muassa julkaisujen näkyvyydestä.

Conservation Letters -lehti julkaisi tutkimuksen luonnon monimuotoisuuteen liittyvän alkuperäisdatan käytöstä. Tulosten mukaan valtaosa tutkijoista käyttäisi mieluusti muiden aineistoja, mutta ei tahtoisi jakaa omiaan.

Keppiä ja porkkanaa

Eettisestä näkökulmasta avoimeen dataan pätee sama argumentaatio kuin avoimeen julkaisemiseen: julkisen rahoituksen turvin kerätty aineisto on mahdollisuuksien mukaan saatettava avoimeen käyttöön. Tämä on kuitenkin tehtävä huomioiden tutkijayhteisön omat hyödyt ja kustannukset.

– Kuulun niin sanottuun pragmaattiseen koulukuntaan, jonka mukaan eteenpäin on edettävä ruohonjuuritasolla, ei pelkästään ylhäältä hallinnon kautta. Hallinnolla ja tukipalveluilla on toki merkittävä ja tarpeellinen rooli aineistojen avaamisessa. Aina on kuitenkin mietittävä, mitä hyötyä tästä on tutkijalle, Lehtomäki kertoo.

– Toisaalta, jos odotamme, että muutos tapahtuu itsestään yhteisön sisällä, niin odotamme vielä sadan vuoden kuluttua. Tutkijayhteisö suhtautuu muutoksiin usein konservatiivisesti ja usein toki hyvästä syystä: muutosten tarpeellisuus ja hyödyllisyys on pystyttävä perustelemaan. Käytännössä jonkinlainen kompromissi – keppiä ja porkkanaa sopivassa suhteessa, hän päättää.

•    Viime Verkkarissa Joona Lehtomäki pohti avointa julkaisemista

Teksti

Laura Hiisivuori
viestintäpäällikkö

Kuvat

Jussi Männistö
tietoasiantuntija

Avoin tiede – Open Science – Mitä se on?

Avoin saatavuus – Open Access

Avoimet lehdet

Avoin julkaiseminen tarkoittaa tieteellisten julkaisujen tarjoamista verkossa vapaasti maksutta kaikille kiinnostuneille. Yhteiskunnallisen tasa-arvon ja osallistumismahdollisuuksien lisäksi avoimuus lisää julkaisujen lukijoita ja sitä kautta ne kenties vaikuttavat enemmän.

Avoimesti saatavia eli niin kutsuttuja Open Access -julkaisuja voi lukea, kopioida, tulostaa, linkittää ja käyttää ilmaiseksi ja esteettömästi.

Avoin julkaisu syntyy joko julkaisemalla tutkimusartikkeli alun perin kaikille avoimessa Open Access -lehdessä (kuten PLOS One) tai tallentamalla maksullisessa lehdessä ilmestynyt artikkeli avoimeen julkaisuarkistoon. Vaihtoehtoja kutsutaan myös kultaiseksi tieksi (Golden OA) ja vihreäksi tieksi (Green OA).

Vaihtoehtoisesti voidaan ostaa avoimeksi yksittäinen perinteisessä tilausmaksullisessa lehdessä julkaistu artikkeli. Malli tuottaa kustantajalle suurimman voitot: ensin maksetaan tilausmaksu ja siihen päälle lisähinta avoimuudesta. Ongelmien vuoksi mallista olisi syytä luopua.

Avoimet julkaisuarkistot

Avoin julkaisuarkisto on tietokanta, johon tallennetut dokumentit ovat avoimesti verkossa luettavissa, ladattavissa ja tulostettavissa. Tieteelliset artikkelit ja muu aineisto voidaan tallentaa tutkimusorganisaation tai tieteenalakohtaiseen julkaisuarkistoon.

Avoin vertaisarviointi

Tieteellisten artikkeleiden laatu varmistetaan niin sanotulla vertaisarvioinnilla. Perinteisten tieteellisten lehtien arviointi tehdään suljetusti, eikä arvioijien nimiä julkaista. Heidän kommenttinsa annetaan ainoastaan artikkelin kirjoittajille.

Avoimessa vertaisarvioinnissa arvioijien nimet ovat julkisia ja myös heidän kommenttinsa julkaistaan. Samalla saadaan kuvailutietoa, ikään kuin lukuohje artikkeliin, joka ohjaa lukijaa kiinnittämään huomiota juuri näihin kysymyksiin.

Avoin tutkimusdata – Open Research Data

Avoin tutkimusdata on useimmiten tutkimuksen tuottamaa tai käyttämää tutkimusaineistoa, joka jaetaan uudelleen käyttöä ja analysointia varten. Perinteisesti avoimella tutkimusdatalla tarkoitetaan dataa, jonka uudelleen käyttöä ei rajoiteta patentein tai tekijänoikeuksin, eikä uudelleen käytön tapaa tai käyttötarkoitusta rajata. [1]

Avoimen tutkimusdatan idea ei ole uusi, vaan esimerkiksi biolääketieteen ja ympäristön tutkimuksessa avoimella datalla on ollut keskeinen merkitys jo pitkään. OECD maita koskeva suositus julkaistiin vuonna 2004 [2] ja se on poikinut useita datan avoimuutta edistäviä hankkeita.

Suomessa käytetään tutkimusaineistoina paljon viranomaisten keräämää rekisteriaineistoa. Suomen ainutlaatuiset rekisteriaineistot on saatu laajempaan käyttöön muun muassa valtion avoimen tiedon ohjelman 2013–2015 [3] ansiosta.

Tutkimusrahoittajat ja -lehdet vaativat tai suosittelevat yhä useammin tutkimusdatan avaamista myös niillä aloilla, joilla se ei ole aikaisemmin kuulunut tutkimusperinteeseen. Tutkimusdatan avoimuus lisää tutkimuksen läpinäkyvyyttä ja sen luotettavuutta voidaan arvioida paremmin kuin pelkän tutkimusjulkaisun perusteella. Myös tutkimuksen tuottavuus ja vaikuttavuus paranevat, kun dataa käytetään uudelleen.

Datan avaamiselle ja sen avoimelle julkaisemiselle on useita perusteltuja esteitä, kuten datan sensitiivisyys, jolloin se sisältää esimerkiksi arkaluontoista tietoa yksittäisistä henkilöistä. Henkilötiedot voidaan datasta monesti häivyttää, mutta se ei ole aina mahdollista tai se voi vähentää datan käyttömahdollisuuksia merkittävästi. Esimerkiksi European Science Foundation ja ALLEA (All European Academies) suosittelevatkin tutkimusdatan uudelleen käytön mahdollistamista, mutta eivät edellytä sen avaamista vapaasti kaikkien saataville. Data voidaan jakaa esimerkiksi vain tutkimusluvan perusteella. [4] Tällaiset datat eivät tarkalleen ottaen ole avointa dataa, vaan jaettua ja uudelleen käytettävää tutkimusdataa. Ne voidaan kuitenkin laskea mukaan Open Science -idean sateenvarjon alle.

Termeillä ”avoin data” (Open data [5]) tai ”avoin linkitetty data” (Linked open data [6]) taas tarkoitetaan avoimesti ja koneluettavassa muodossa jaettuja datoja, joita on helppo yhdistellä toisiinsa. Koneluettavuus tietenkin lisää uudelleen käytön ja datalouhinnan mahdollisuuksia. Myös tutkimusdataa voidaan jakaa avoimena tai avoimena linkitettynä datana. Useat suuret tutkimusdata-arkistot ja datapankit jakavatkin datansa juuri tässä muodossa. [7]

Linkkejä:
1.    LERU Open Research Data
2.   OECD Principles and Guidelines for Access to Research Data from Public Funding
3.   Avoimesta datasta innovatiiviseen tiedon hyödyntämiseen
4.   The European Code of Conduct for Research Integrity
5.   Avoindata.fi – Sanasto
6.   Linked open data (Wikipedia)
7.   The Linking Open Data cloud diagram

Avoin lähdekoodi – Open Source

Avoin lähdekoodi on monelle tuttu tietotekniikan maailmasta, mutta se on yhä oleellisempi myös tieteen näkökulmasta. Jos tutkija käyttää esimerkiksi monimutkaista algoritmia, joka ei ole muiden saatavilla, niin tutkimus ei ole toistettavissa.

Avoin laboratoriokirja – Open Notebook

Erityisesti laboratoriossa viihtyvät tutkijat ovat kirjanneet tunnollisesti tutkimuksensa vaiheet ylös. Aiemmin ruutuvihkoon, nyt sähköisesti ja halutessaan avoimesti verkkoon. Avoin laboratoriopäiväkirja on tutkimusprosessin jatkuvaa avointa kuvailua. Kuten aiemminkin, tutkimuksen jokaiseen vaiheeseen voidaan palata.

Avoimet muistiinpanot kannustavat keskusteluun tutkimusasetelman hyödyistä ja ongelmista ja vähentävät koevirheitä. Ne ovat kuin kriitikon katse. Me ihmiset usein tiedämme, miten joku pitäisi tehdä, mutta sitten vähän oiotaan. Tällainen ”ulkoinen katse” hillitsee oikojia.

Perinteisen tutkijan voi olla vaikea ryhtyä tällaiseen, koska monesti ajatellaan, että menetelmät ovat omia ja jopa vähän ”salaisia”.

Avoin laitteisto – Open Hardware

On olemassa jopa avointa laitteistoa: ”Näillä ohjeilla voit rakentaa oman spektrofotometrisi”. Aitoa hyötyä tällaisista voi olla kansalaistieteen (citizen science) yhteydessä. Asiantuntijoiden ohjeiden mukaan voidaan rakentaa esimerkiksi yksinkertaisia välineitä vedenlaadun tarkkailuun.


Avoin yhteistyö – Open Collaboration – hyödynnetään tietotekniikkaa

Avoin yhteistyö tarkoittaa modernien tietoverkkojen mahdollisuuksien hyödyntämistä tieteellisessä yhteistyössä. Tiedeyhteisö voi hyödyntää esimerkiksi avoimen lähdekoodin ohjelmistoja, internetin foorumeita ja yhteisöjä. Yksinkertaisimmillaan avoin yhteistyö voi tarkoittaa ahkeraa bloggaamista oman tutkimuksen etenemisestä. Blogin kautta osallistetaan kiinnostuneita ja toivotaan kriittisiäkin kommentteja, joiden myötä tutkimuksen laatu saattaa parantua jo matkan varrella.

Esimerkiksi sopii Aalto-yliopiston lipiditutkimushanke, joka laajeni avoimen yhteistyön projektiksi: Avointa yhteistyötä lipiditutkimuksessa

Tekstin taustamateriaalina on käytetty Esa-Pekka Keskitalon esitelmää 2.9.2015 Kansalliskirjaston luentosarjassa sekä Avoin tiede ja tutkimus -hankkeen verkkosivustoa

Teksti

Laura Hiisivuori
viestintäpäällikkö

Avoin tutkimusdata -osio

Mari Elisa Kuusniemi
informaatikko

Kuvat

1. Wikipedia
2. Opensource.org
3. Evil Mad Scientist

Kirjastojen data avautuu ja linkittyy verkkoon – SWIB12 kokoontui Kölnissä

Semanttinen web ja linkitetty avoin data on ollut tapetilla viime vuosina ja herättänyt kiinnostusta ja kehityshankkeita monella sektorilla, esimerkkinä vaikkapa monimuotoiset FinnONTO-projektit. Kirjastomaailma on hidasliikkeisempi kuin web keskimäärin, mutta nyt näyttää siltä, että heräämistä on tapahtunut myös tällä sektorilla. Oireellista tässä suhteessa on se, että tänä vuonna on IFLA:aan on perustettu semanttisen webin special interest group -työryhmä.

Saksassa kirjastojen semanttisen webin kehityshankkeista on vaihdettu kokemuksia vuodesta 2009 alkaen, mutta kokoukset olivat alkuaikoina pääosin saksankielisiä. Tänä syksynä konferenssi vaihtoi kokouskielen englanniksi, mikä näkyi siinä, että osallistujia oli nyt 23 maasta. Jostain syystä konferenssin lyhenteenä on kuitenkin säilynyt SWIB, Semantic Web in Bibliotheken.

Lisää URIa

Avoimen linkitetyn datan erityispiirteenä, riippumatta siitä millä tekniikalla datan avaus toteutetaan, on datan linkittäminen muualle avoimeen verkkoon, ja erityisesti johonkin Linked Open Data -pilven tietoaineistoon. Tyypillinen linkityksen kohde on Wikipedia, jota tarjoaa hyödyllistä lisätietoa monesta asiasta, kirjastojen sovelluksissa esimerkiksi tekijöistä, aihealueista, teoksista tai paikannimistä. Sen sijaan, että linkitys tehtäisiin perinteisen Wikipedian sivuille, kohteena näissä sovelluksissa käytetään usein RDF-muotoon siirrettyä DBpediaa. Tästä on se etu, että yhdellä linkillä saadaan kootusti monikielinen kuvaus asiasta, esimerkkinä Alvar Aallon sivu tässä muodossa: http://dbpedia.org/page/Alvar_Aalto.

Niille, joita arveluttaa Wikipedian tietojen luotettavuus, on lohduksi se tosiseikka, että kenen tahansa on mahdollista parantaa ja korjata Wikipedian tietoja, toisin kuin kirjastojen auktoriteettitietojen puutteita ja virheitä. Wikipediaa ei ole tarkoitettu ensisijaiseksi julkaisufoorumiksi, vaan sinne kootaan tietoja muualla julkaistuista lähteistä.

Kirjastodatan rikastaminen linkityksillä tehdään mieluiten käyttämällä URI-tunnisteita, jotka ovat tyypillisesti pysyvämpiä kuin webin verkko-osoitteet keskimäärin. Käytännössä nämä ovat usein tavallisia URL-osoitteita, joilla asiasanoja täydennetään tai korvataan linkittämällä soveltuvan ontologian käsitteisiin. Linkitys voi myös olla tekijätietojen tarkentamista linkittämällä auktoriteetitietokantoihin kuten VIAF, tai paikannimien tarkentamista linkittämällä vaikka GeoNames-palveluun. Esimerkiksi Espanjan kansalliskirjaston projektissa bibliografista dataa on linkitetty RDF-muodossa aukoriteettitietokantoihin (VIAF, GND),  yhteisluettelotietokantoihin (Sudoc, Libris), wikipediaan (DPpedia) sekä jatkossa myös Saksan, Ranskan ja Britannian kansallisbibliografioihin.

Tavoitteena tässä kaikessa datan linkityksessä on, että kirjastojen tarjoamat tietoaineistot eivät olisi enää erillisiä siiloja, joita voi käyttää vain kirjaston tarjoaman käyttöliittymän kautta, vaan aineisto olisi osa eri suuntiin rönsyävää verkkomaista tietorakennetta, joka tunnetaan myös nimellä GGG, Giant Global Graph.

API vai dumppi

Avoimen linkitetyn datan yhteydessä nousee aina keskusteluun erilaisia näkemyksiä siitä miten datan avaamista on tarkoituksenmukaisinta toteuttaa. Tässä kohden on kaksi pääkoulukuntaa, joista toinen korostaa sitä, kuinka keskeistä on, että koko aineisto on saatavilla yhtenä tai useampana tietokantadumppina jossain yleisesti käytetyssä formaatissa. Tilastodatan osalta tiedostomuoto voi olla esimerkiksi CSV ja kirjastodatan osalta esimerkiksi MARCXML.Tällöin datan avaaja ei tee etukäteen valintaa siitä mikä osa datasta voisi olla käyttäjän kannalta kiinnostavaa ja mikä ei. Käyttäjä tässä yhteydessä voi olla sovelluskehittäjä, joka yhdistää kirjastodataa omaan sovellukseensa.

Tätä filosofiaa noudattaa Oslon kaupunginkirjaston palvelu data.deichman.no, jossa koko kirjastoluettelo tarjotaan RDF-muodossa. Kirjasto on myös kehittänyt ja ja julkaissut työkalun marc-datan muuntamiseen RDF-muotoon (marc2rdf). Harmi vain, että norjalaiset ovat pysyneet omassa kansallisessa NORMARC-formaatissaan, minkä vuoksi työkalun käyttö Suomessa vaatii sen sovittamista MARC21-formaattiin.

Vaihtoehtona tietokantadumpeille tai niiden rinnalla tarjotaan usein API-ohjelmointirajapintaa, joka kautta data on saatavilla. Tämä on sinänsä toimiva ratkaisu, mutta usein rajapinta on suunniteltu jotain tiettyä käyttötapausta silmallä pitäen, eikä API:n toimintatavan muuttaminen ole datan soveltajille yleensä mahdollista . Myös ohjelmointirajapintojen toteutuksissa ja helppokäyttöisyydessä sovelluskehittäjän kannalta on suuria eroja. Saksalaisten kokemusten perusteella parhaaseen tulokseen päästään tarjoamalla yleisesti käytetty rest/json -rajapinta sen sijaan, että tarjottaisiin puhdasoppista sparql-rajapintaa, joka on monille kehittäjille vieras.

MARCille seuraaja

Kongressin kirjastosta esiteltiin Skypen välityksellä uutta Bibliographic Framework Initiative -hanketta, jossa tavoitteena on määritellä MARC-formaatin seuraaja ja strategia, jolla tähän voitaisiin siirtyä vaiheittain. Esityksen aikana kuitenkin ääniyhteys pätki niin pahasti, että tähän asiaan on helpointa tutustua vastikään aiheesta julkaistusta raportista.

Tutkimusdataa RDF-muodossa

Taloustieteellinen tutkimusdata on tyypillisesti tilastodataa, jota saksalaisessa hankkeessa ollaan myös muuntamassa RDF-muotoon. Tässä ei kovin pitkälle riitä se, että laajat tilastoaineistot kuvaillaan koko datajoukon tasolla, vaan ideaalitilanteessa taulukkomuotoisen aineiston jokainen solu saa oman URI:n, ja siihen voidaan viitata suoraan muualta, esimerkiksi julkaisuista. Tämäkään ei vielä riitä tutkimuksen toistettavuuden näkökulmasta, vaan lisäksi omasta URI-osoitteestaan pitäisi löytyä ne skriptit ja parametrit, joita datan analysointiin ja visualisointiin on käytetty. Haasteita tällä saralla riittää myös kirjastoille.

Kädet savessa RDF:n kimpussa

Konferenssiin liittyvässä työpajassa pääsivät kaikki osanottajat kirjoittamaan RDF:ää, ja tuotokset julkaistiin muidenkin nähtäville asiankuuluvalla avoimella lisenssillä. Kun luomukset vielä ajettiin validaattorin lävitse ja lisättiin puuttuvat pisteet ja välilyönnit, voitiin saada näkyviin kiinnostavia taustatietoja työpajaan osallistuvista, ja tähän joukkoon voitiin kohdistaa kyselyitä sparql-muodossa.

Työskentely oli hyvin antoisaa, kun käytännössä näki miten RDF-tiedot muodostuvat ja mahdollistavat tietojen yhdistämisen ja jakelun. Samalla myös tietojen laatuun liittyvät ongelmat konkretisoituivat. Pienessä mittakaavassa tehty harjoitus auttoi näkemään yhdistetyn tiedon mahdollisuuksia ja sudenkuoppia. Suosittelemme käytännön harjoittelua muillekin.

Mitä jäi mieleen?

Konferenssin pääviesti oli selvä. Yhdistetyn tiedon työkalut, RDF ja SPARQL, ovat käyttökelpoisia tiedon yhdistämiseen, jakamiseen ja hyödyntämiseen konekielisesti. Ne eivät kuitenkaan korvaa tiedon tuottamisessa ja tallennukseen käytettäviä järjestelmiä.

Tiedon muuttaminen RDF-muotoon onnistuu eri formaateissa olevasta tiedosta, mutta muunnos ei paranna tiedon laatua. Sama tietysti pätee muihinkin tiedon esitystavan muutoksiin. Virheellisten tai puutteellisten tietojen osalta lähtökohtana on, että korjaukset tehdään alkuperäisiin tiedon lähteisiin. Tosin ongelmana tietojen korjaamisessa voi olla useiden käsittelyjen, esimerkiksi tietojen yhdistäminen ja rikastaminen, ja linkitysten takana olevien tietojen alkuperän tunnistaminen ja viestiminen korjaustarpeesta. Toinen ongelma ovat samaa asiaa koskevat ristiriitaiset versiot tiedosta.

Esityksissä ja keskusteluissa tuli esille standardien ja auktoriteettitietojen kaipuu sekä niiden toteuttamisen ja käytön vaikeudet, esimerkkinä erilaisten sanastojen sisältämien samojen termien eri käyttötarkoitusten tunnistaminen myös koneellisesti. Tärkeäksi todettiin käsitteiden määrittely ja erityisesti se, miten edetään käsitemallista konkreettiseen järjestelmien sisältämien tietojen käsittelyyn. Esimerkiksi Library of Congressin BIBFRAME-projektissa on edetty RDF-muotoisen tiedon tuottamiseen ja törmätty käytännön ongelmiin  (kalvo 38).

Jos konferenssin anti pitäisi kiteyttää yhteen lauseeseen, yksi hyvä ehdokas on lainaus Lukas Kosterin (Amsterdamin yliopisto) esityksestä: “Don’t think systems – Think data

Konferenssipaikka Kölnissä oli monitoimitalo Bürgerhaus Stollwerck.

SWIB12-konferenssin esitykset on taltioitu tänne.

Teksti ja kuvat

Pauli Assinen
tietojärjestelmäpäällikkö
Verkkopalvelut
Helsingin yliopiston kirjasto

Kimmo Koskinen
kehityspäällikkö
Verkkopalvelut
Helsingin yliopiston kirjasto