Miksi hallita tutkimusaineistoja ja -dataa?

Sarjan ensimmäisissä osissa käsittelimme, mitä tutkimusaineistojen ja -datan hallinta on. Tässä osassa mietimme, miten aineistonhallinta on vuosikymmenien saatossa muuttunut ja millaisia vaikutuksia muutoksella on tutkimuksen tekemiseen.

(This article is also available in English.)

Teksti: Tanja Lindholm

Paljon on muuttunut viime vuosikymmenien aikana.  Tarkastelemalla muutoksia mm. tutkimusvälineiden kehityksessä, voimme todeta, että tutkimusmaailma ei ole sitä mitä se, esimerkiksi vuosikymmenen alussa oli. Suurimmat muutokset ovat eittämättä digitaalisten työkalujen yleistyminen, internetin tulo, datamäärien ja tallennustilan valtava kasvu (Kuva 1). Suurimmat muutokset liittyvät siis digitaalisen aikakauden alkuun ja aikakauden aikana tapahtuneeseen nopeaan kehitykseen.

Digitaalinen aikakausi tarjoaa monia uusia mahdollisuuksia, mutta mm. uudet työkalut ja datan jakamisen mahdollisuudet ovat tuoneet mukanaan myös uudenlaisia vastuita ja haasteita. Uudet haasteet ovat tehneet aineistonhallinnasta entistä tärkeämmän osan tutkimuksen tekoa.

Jos vertailemme kenttätyötilannetta vuosituhannen alussa ja tänään, saamme jonkinlaisen käsityksen, mikä on muuttunut ja mitä se tarkoittaa.

”Tutkimus ei ole sitä mitä se ennen oli”

Siinä missä vuosituhannen alussa kenttätöitä tehtiin pääasiassa kynän, paperin ja analogisten tai digitaalisten kameroiden avulla, tänä päivänä lähinnä kynä ja paperi ovat säilyttäneet paikkansa kenttätöiden välineinä.  Digitaalisen kehityksen myötä puhelin on tullut varmasti yhdeksi tärkeimmistä työkaluista. Sillä on mahdollista tuottaa kuvaa, ääntä tai jopa tehdä muistiinpanoja.

Vuosituhannen alussa data sijaitsi usein muun muassa muistitikuilla, korteilla ja ulkoisilla kovalevyillä, tai ylipäänsä alustalla, joka oli mahdollisimman edullinen ja jossa oli mahdollisimman paljon tilaa. Nykyään voimme sekä kerätä ja säilyttää datan puhelimessa että samanaikaisesti myös jakaa sitä lähes reaaliaikaisesti toiseen systeemiin tai kollegalle riippumatta sijainnista.

Kuva 1. Growth of and Digitization of Global Information Storage Capacity [lähde: Myworkforwiki / CC BY-SA.
Molemmissa tapauksissa on helppo keksiä datan kannalta pahimpia mahdollisia tilanteita, vaikka niihin liittyvät riskit kuitenkin poikkeavat merkittävästi toisistaan. Vuosituhannen alussa data oli helppo hukata, jos se sijaitsi ainoastaan esimerkiksi muistitikulla. Suojaamattoman muistitikun data saattoi myös helposti päätyä vääriin käsiin. Dataa tuotettiin paljon, mutta koska kehitys oli  nopeaa, instituutiot eivät välttämättä pysyneet kehityksen perässä, eivätkä näin ollen kyenneet tarjoamaan turvallista säilytystilaa suurille aineistomäärille. Monin paikoin tehtiin omia ratkaisuja, jotka eivät välttämättä olleet tietoteknisesti turvallisia tai kestäviä. Näin ollen aineistoja oli helppo kadottaa ja sensitiivisen aineiston suojaus tuskin oli tarpeeksi turvallisella tasolla. Nykypäivänä mittavampi ja huomattavasti haitallisempi skenaario, on datan nopea leviäminen. Huonosti suojatun puhelimen päätyminen vääriin käsiin saattaa aiheuttaa mittavia vahinkoja tutkimuksen kohteille tai itse tutkimukselle – muun muassa sosiaalisen median (twitter, facebook jne.) välityksellä data voi levitä globaalisti jopa minuuteissa.

Nykypäivänä mittavampi ja huomattavasti haitallisempi skenaario, on datan nopea leviäminen. Huonosti suojatun puhelimen päätyminen vääriin käsiin saattaa aiheuttaa mittavia vahinkoja tutkimuksen kohteille tai itse tutkimukselle.

Digitaalinen aikakausi on tuonut mukanaan uusia asetuksia ja lakeja, ja hyvä niin. Lakien ja asetusten lisäksi oletamme tutkimuksen olevan läpinäkyvää, jäljitettävää ja avointa. Niin ikään datan oletetaan noudattavan EU:n FAIR periaatteita. Kun ajattelemme digitaalisen aikakauden mukanaan tuomia muutoksia tai vastuullisen tieteen vaatimuksia, voimme todeta, että tutkimus ei ole sitä mitä se ennen oli. Tuotamme huomattavia määriä dataa hyvin erilaisilla välineillä, mutta se miten me sitä käsittelemme, jaamme, suojaamme ja avaamme eli tutkimusaineistojenhallinta, on saanut vain vähän huomiota mm. julkisessa keskustelussa ja koulutuksessa. Aineistonhallinta mahdollistaa tietosuojatun ja turvallisen datan käsittelyn lisäksi myös määrällisesti suurten aineistojen tehokkaan käsittelyn. Hyvin suunniteltu on puoliksi tehty, pätee myös aineistonhallintaan, tosin systemaattinen suunnittelu ja hallinta antavat enemmänkin kuin vain puolet.

Sarjan seuraavassa osassa katsomme tarkemmin, mitkä ovat tutkimussuunnitelman yhteydessä tehtävän aineistonhallinnan suunnittelun hyödyt.

   Tutkimusdatan hallinta – tunne datasi!

Tutkimusaineistojen ja -datan hallinta (RDM) on tärkeä osa jokaista tutkimusprojektia. Aineistojen ja datan hallinnan ensisijaisena tavoitteena on tehdä tutkimusprosessista mahdollisimman tehokas – toisekseen se auttaa sinua vastaamaan organisaatiosi ja tutkimuksen rahoittajien odotuksiin ja vaatimuksiin. RDM-taidot ovat tutkijan perustaitoja, ja ne koskevat kaikkia, jotka käsittelevät tutkimusdataa tutkimushankkeessa. Oppimalla aineistojen ja datan hallintaa opit TUNTEMAAN DATASI!

Tässä tietoiskusarjassa Helsingin yliopiston Datatuki esittelee kaikki tutkimusaineistojen ja -datan hallintaan ja hallinnan suunnitteluun liittyvät pääkohdat; mitä ne ovat, miksi ne ovat tärkeitä ja mistä etsiä lisäapua RDMP-asioissa. Artikkelisarja koostuu kuudesta osasta:

1) Mitä on tutkimusaineistojen ja -datan hallinta, RDM? (3.9.2020)
2) Tutkimusaineistojen ja -datan hallinnan pääkohdat (17.9.2020)
3) Miksi hallita tutkimusaineistoja ja -dataa? (30.9.2020)
4) Miksi suunnitella tutkimusaineistojen ja -datan hallintaa etukäteen? (22.10.2020)
5) Suunnittelusta apua tehokkaaseen tutkimusaineistojen ja -datan hallintaan (19.11.2020)
6) Mistä apua aineistojen ja datan hallintaan? (8.12.2020)