Tutkimusaineistojen ja -datan hallinnan osatekijät

Tutkimusaineistojen ja -datan hallinnan tärkeimmät osatekijät ovat oman datan tunteminen ja kuvaileminen, eettisten ja oikeudellisten periaatteiden noudattaminen, datan suojaamiseen, tallentamiseen, jakamiseen, arkistointiin, avaamiseen ja julkaisemiseen liittyvien työnkulkujen ymmärtäminen. Tässä Tunne datasi -artikkelisarjan osassa tarkastelemme lähemmin aineiston- ja datan hallinnan keskeisimpiä osatekijöitä ja niiden suhdetta tutkimuksen perinteisiin työnkulkuihin sekä osin myös kotiorganisaation tarjoamiin peruspalveluihin.

(This article is also available in English.)

Teksti: Mikko Ojanen

Tutkimusaineistojen ja -datan hallintaa pidetään usein raskaana ja byrokraattisena prosessina – tehtävinä, jotka eivät kuulu tutkimusprojektiin ja ovat jonkun muun kuin vastuullisen tutkijan vastuulla. Tämä johtuu suurelta osin siitä, että tutkijat eivät tiedä, mistä aineistojen ja -datan hallinnasta on kyse.

Onko minulla dataa vai ei?

Suurin osa tutkimushankkeista pohjautuvat tutkimusaineistoihin ja -dataan. Aineistojen ja datan hallinnan näkökulmasta datan määritelmä on laaja. Se kattaa käytännössä kaiken, johon tutkimuksen tulokset pohjautuvat – esimerkiksi mittaukset, fyysiset näytteet, algoritmit, taideteokset, ihmiset, eläimet, rakennukset, ajatukset tai uskomukset jne. Tästä syystä aineistojen ja datan hallinnan näkökulmasta aineistoja ja -dataa on syytä ajatella synonyymeinä. Ainoastaan ​​täysin teoreettista tai käsitteellistä tutkimusta tekevä tutkija voi hyvällä syyllä ajatella, että hän ei kerää, uudelleenkäytä tai tuota dataa. Näin ollen aineistojen ja datan hallinta koskee lähes kaikkia tieteen ja tutkimuksen tekoon osallistuvia. Ensimmäinen keskeinen aineistonhallinnan osatekijä on tutkimusprojektisi datan tunteminen.

Miten kuvailla dataa?

Toinen keskeisistä aineistojen ja datan hallinnan osatekijöistä on datan kuvaileminen. Oikein tuotettuna datan kuvailu auttaa ymmärtämään, mistä projektissa on kyse. Aineistoja ja dataa voidaan kuvailla usealla eri tasolla. Karkein jaottelu liittyy siihen, kuvaillaanko datasettejä vai itse dataa parametrien ja muuttujien tasolla. Eri tason kuvauksia käytetään eri tarkoituksiin. Näistä ensimmäinen mahdollistaa datasettien löytämisen, saatavuuden, yhteentoimivuuden ja uudelleenkäytettävyyden, kun taas jälkimmäinen liittyy läheisesti tutkimusprojektin metodologisiin ja analyyttisiin prosesseihin. Useissa projekteissa aineistojen ja datan kuvailuun liittyvät työnkulut ja näihin liittyvä metadata on otettava huomioon jo ennen projektin alkua – tai ainakin suunniteltava viimeistään ennen aineistojen ja datan keruun aloittamista. Esimerkiksi 14 000 digitaalivalokuvan luettelointi ja kuvailu tai 100-tuntisen haastatteluaineiston litterointia äänitallenteilta on huomattavan työlästä tehdä jälkikäteen.

Miten seurata eettisiä periaatteita ja lainsäädäntöä?

Aineistojen ja datan hallintaa kolmas keskeinen osatekijä on eettisten periaatteiden ja lainsäädännön tunteminen sekä niiden noudattaminen. Eettiset periaatteet ja lainsäädäntö ohjaavat jokaista tutkimusprojektia tavalla tai toisella. Eettisten ja oikeudellisten kysymysten seuraaminen edellyttää tutkijalta asiantuntemusta sen tunnistamiseksi, milloin ja miten tutkimukseen osallistuvia informoidaan, milloin tietosuojailmoitus pitää tehdä, kuka on rekisterinpitäjä, jos projektissa kerätään ja käsitellään henkilötietoja tai miten yleinen tietosuoja-asetus (GDPR) ohjaa tutkimuksen suorittamista. Lisäksi tutkijan on pohdittava, kuka omistaa projektissa hyödynnetyt aineistot ja data ja millä perusteella hänellä on oikeus niitä käyttää. Tutkijan ydinosaaminen kuuluu myös ymmärtää sisältääkö heidän hyödyntämänsä aineistot ja data henkilötietoja, arkaluonteisista tietoja tai arkaluonteisista henkilötietoja tai liittyykö käytettyihin aineistoihin ja dataan immateriaalioikeuksia, esimerkiksi tekijänoikeuksin suojattua materiaalia. Eettiset ja oikeudelliset kysymykset ovat harvoin mustavalkoisia, ja toisinaan ne voivat sisältää jopa keskenään ristiriitaisia eettisiä ja oikeudellisia yksityiskohtia. Tästä syystä usein kyse on riskiarvioinnista. Kyse on arvovalinnasta keskenään ristiriitaisten, joskin usein hyvien, periaatteiden välillä.

Missä ja miten tallentaa, jakaa, arkistoida, avata ja julkaista dataa turvallisesti?

Kuten yllä käsitellyistä aiheista voidaan päätellä, tutkimusaineistojen ja -datan hallinta on huomattavasti suurempi osa tutkimusta kuin vain digitaalisten tiedostojen tallentamiseen liittyvät tekniset ratkaisut. Tähän liittyen on tärkeää huomata ero tutkimushankkeen aktiivisen ja staattisen vaiheen välillä. Aktiivisessa vaiheessa aineistoja ja dataa käsitellään lähes päivittäin, kun taas staattisessa vaiheesessa aineistot ja data on siivottu arkistointia tai julkaisua varten. Arkistointi ja julkaiseminen tapahtuu tyypillisesti projektin päättymisen jälkeen, joskin on suotavaa julkaista aineistoja ja dataa jo projektin aikana. Syytä on myös huomata, että tietojen jakamista (engl. sharing) ei pidä sekoittaa tietojen avaamiseen, julkaisemiseen ja arkistointiin (engl. opening, publishing, archiving). Vaikka jakamiseen, avaamiseen, julkaisemiseen ja arkistointiin käytettävät työkalut voivat olla hyvin samanlaisia, aineistojen ja datan halllinnan näkökulmasta ne eroavat toisistaan ​​merkittävästi.

Tutkimusaineistojen ja -datan hallinnan elinkaaren avaamis- ja julkaisuvaiheessa tutkijan pitää valita sopiva arkisto tai julkaisualusta sekä päättää, minkä lisenssin perusteella hän aineistonsa asettaa uudelleenkäytettäväksi. Julkaisuun on syytä valita kuratoitu arkisto, joka tarjoaa julkaistaville kokonaisuuksille pysyvät tunnisteet (engl. persistent identifier). Data-arkiston valinta voi olla turhauttavaa. Ideoita hyviin arkistoratkaisuihin voi etsiä lukemalla oman alansa julkaisuja, joissa kollegat kuvaavat avaus- ja julkaisuratkaisuistaan tai selaamalla sopivia arkistoja osoitteesta Re3data.org [1]. Pysyvät tunnisteet helpottavat tietojen löytämistä ja viittaamista. Aineitojen ja datan julkaisun oheen on suositeltavaa muotoilla aineistoon ja dataan viittaamisen ohje.

Nyt kun olemme nähneet, mitä aineistojen ja datan hallinnan eri osatekijät ovat – osa niistä ehkä helpommin ymmärrettävissä kuin toiset – huomaamme, että aineiston ja datan hallinnassa tarvitaan useita erilaista asiantuntemusta . Eri osatekijöiden ymmärtäminen on keskeinen osa tutkimusta, ja se auttaa välttämään monia ongelmia. Sarjan seuraavissa osissa käsitellään tarkemmin, miksi tutkimusaineistojen ja -datan hallinnasta on tullut yhä tärkeämpää tutkimukselle ja miksi erityisesti etukäteisellä suunnittelulla on ratkaiseva merkitys.

[1] http://re3data.org/

 

   Tutkimusdatan hallinta – tunne datasi!

Tutkimusaineistojen ja -datan hallinta (RDM) on tärkeä osa jokaista tutkimusprojektia. Aineistojen ja datan hallinnan ensisijaisena tavoitteena on tehdä tutkimusprosessista mahdollisimman tehokas – toisekseen se auttaa sinua vastaamaan organisaatiosi ja tutkimuksen rahoittajien odotuksiin ja vaatimuksiin. RDM-taidot ovat tutkijan perustaitoja, ja ne koskevat kaikkia, jotka käsittelevät tutkimusdataa tutkimushankkeessa. Oppimalla aineistojen ja datan hallintaa opit TUNTEMAAN DATASI!

Tässä tietoiskusarjassa Helsingin yliopiston Datatuki esittelee kaikki tutkimusaineistojen ja -datan hallintaan ja hallinnan suunnitteluun liittyvät pääkohdat; mitä ne ovat, miksi ne ovat tärkeitä ja mistä etsiä lisäapua RDMP-asioissa. Artikkelisarja koostuu kuudesta osasta:

1) Mitä on tutkimusaineistojen ja -datan hallinta, RDM? (3.9.2020)
2) Tutkimusaineistojen ja -datan hallinnan pääkohdat (17.9.2020)
3) Miksi hallita tutkimusaineistoja ja -dataa? (30.9.2020)
4) Miksi suunnitella tutkimusaineistojen ja -datan hallintaa etukäteen?
5) Kuinka tutkimusaineistojen ja -dataa hallitaan?
6) Mistä apua aineistojen ja datan hallintaan?

 

2 vastausta artikkeliin “Tutkimusaineistojen ja -datan hallinnan osatekijät”

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *