Datatermit tutuiksi, osa 1: Tallennanko, säilytänkö vai arkistoinko dataa?

Monet datanhallinnassa (research data management, RDM) käytetyt termit ovat yleiskielen sanoja, ja eri käyttötarkoituksissa ne saattavat saada eri merkityksen. Datanhallintaa koskevassa sarjassa tehdään selkoa keskeisistä – usein sekaannusta aiheuttavista – termeistä. Avausosassa pureudutaan datan ’tallennukseen’, ’säilyttämiseen’ ja ’pitkäaikaissäilytykseen’.

Teksti: Mari Elisa Kuusniemi & Liisa Siipilehti (Helsingin yliopiston Datatuki)

Tässä blogisarjassa käsittelemme datanhallintaan liittyviä sanoja ja termejä, jotka aiheuttavat sekaannuksia ja välillä jopa hämmennystä. Monet datanhallinnassa käytetyt termit ovat yleiskielen sanoja, ja eri käyttötarkoituksissa ne saattavat saada eri merkityksen. Datanhallinnan asiantuntijatkaan eivät käytä näitä sanoja aina kovin systemaattisesti. Alan asiantuntijoiden taustakoulutukset ovat erilaisia (informaatiotutkimus, tietojenkäsittelytiede, juridiikka, hallintotieteet, jne.) ja eri tieteenalat (luonnontieteet, humanistiset tieteet, jne.) tuovat mukanaan omat määritelmänsä sanoille.

Monet tahot ovat määritelleet tutkimusdatan hallinnan termejä, mutta nämä määritelmät poikkeavat toisistaan (vrt. Tieteen termipankki, Tutkimushallinnon sanasto, PAS-sanasto). Virallisissa yhteyksissä käytetyt termit määritellään, ja saman dokumentin sisällä pyritään termien systemaattiseen käyttöön. Arkikäytössä sanoja ei kuitenkaan pysähdytä joka kohdassa määrittelemään, vaan luotetaan siihen, että kuulija kysyy, jos jonkun sanan merkitys ei aukea.

Tämän blogisarjan jutut auttavat huomaamaan ne sanat, joiden merkitys ei välttämättä olekaan se, mitä arkikielen perusteella oletetaan.

Tämän blogisarjan jutut auttavat huomaamaan ne sanat, joiden merkitys ei välttämättä olekaan se, mitä arkikielen perusteella oletetaan. Sarjassa esitetyt pohdinnat termeistä perustuvat kirjoittajien pitkään työkokemukseen aiheen parissa. Englanninkielinenkään terminologia ei ole vakiintunut, ja osittain suomen- ja englanninkieliset käsitehierarkiat poikkeavat toisistaan. Siksi käännösten tekeminen on hankalaa. Juttusarjassa on myös ehdotuksia käsiteltävien sanojen englanninkielisistä vastineista.

Datan tallennus (engl. storing)

Yleinen ajatus datanhallinnan kontekstissa:

Kun dataa ryhdytään keräämään, se pitää myös tallentaa jonnekin. Tallennus voidaan tehdä paperille kirjoittamalla, äänittämällä tai kuvaamalla tallennuslaitteelle tai mittaamalla tietoja esimerkiksi mittauslaitteen omaan muistiin. Mittausarvot voivat siirtyä laitteesta myös suoraan verkkolevylle, tietokoneelle, ulkoiselle kovalevylle tai vaikkapa muistitikulle. Paperilomakkeista lukujen siirtäminen tietokoneelle on myös datan tallennusta. Muualta saatua tai avointa dataa voidaan tallentaa omaan käyttöön.

Datan tallennus tehdään siis tutkimuksen aikana. Tallennettua dataa voidaan käsitellä ja analysoida, ja sitä halutaan usein myös jakaa muille. Tallennusratkaisu valitaan sen mukaan, mitä palveluja on tarjolla ja kuinka paljon ja millaista dataa projektissa tuotetaan tai käsitellään. Tallennusratkaisuun vaikuttaa datan määrän ohella ratkaisevasti se, sisältääkö data henkilödataa tai arkaluonteista aineistoa vai ei.

Datanhallinnan kontekstissa tallennus ei rajaudu koneisiin.

Arkikielen aiheuttamat sekaannukset:

Arkikielessä tallennus-sana liitetään usein tietokoneeseen. Kuten yllä on kuvattu, datanhallinnan kontekstissa tallennus ei rajaudu koneisiin. Monet eivät myöskään tule ajatelleeksi sitä, että koneelle tallentaessa tallennusnapin painaminen ei vielä riitä, jos halutaan varmistaa datan säilyminen pidempään. Käytännössä data saattaa joskus hyvällä tuurilla säilyä pitkäänkin, kunhan se on tallennettu johonkin mediaan. Tallennus ja säilytys erotetaan datanhallinnassa toisistaan; tämä lähtee siitä ajatuksesta, että digitaalisen datan pitkäaikainen säilyttäminen luotettavasti vaatii paljon työtä ja osaamista.

Datan säilyttäminen (engl. preservation)

Yleinen ajatus datanhallinnan kontekstissa:

Nyt data on kerätty, järjestetty, muokattu, analysoitu ja mahdollisesti myös julkaistu. Joissain tutkimuksissa data on luvattu tuhota tutkimuksen päättymisen ja tulosten julkaisemisen jälkeen. Kun datan määrä nousee esimerkiksi luonnontieteiden aloilla ekspotentiaalisesti, joudutaan dataa hävittämään yksinkertaisesti sen vuoksi, että säilytystilan hankintaan ei riitä varoja.  Dataa ei voida kuitenkaan hävittää ennen kuin tutkimuksen tulokset on verifioitu. Datan käsittelyn päätyttyä sitä ei enää muuteta, mutta se pitää kuitenkin säilyttää.

Säilytysratkaisun valintaan vaikuttavat samat asiat kuin tallennukseen, mutta nyt on vielä tarkemmin mietittävä, kuka vastaa ja hallinnoi säilytyksessä olevaa dataa ja kuinka kauan. Tutkimuksen jälkeen projektin tutkijat voivat lähteä pois siitä organisaatiosta, jossa data tuotettiin. Kuka datan omistaa, kuka hallinnoi sitä ja mitä datalle esimerkiksi viiden vuoden kuluttua  tehdään?

Tutkimuksen jälkeen projektin tutkijat voivat lähteä pois siitä organisaatiosta, jossa data tuotettiin. Kuka datan omistaa, kuka hallinnoi sitä ja mitä datalle esimerkiksi viiden vuoden kuluttua  tehdään?

Arkikielen aiheuttamat sekaannukset:

Joidenkin mielestä datan säilytys on väliaikainen tila tai vaihe datan elinkaaressa. Säilytyksen aikana tehdään päätös, mitä datalle tullaan tulevaisuudessa tekemään. Se voidaan joko julkaista, avata, tuhota tai arkistoida. Joillekin taas säilyttäminen kattaa datan elinkaaren lopun kaikki vaiheet sen harkitusti tehtyyn tuhoamiseen saakka. Säilyttämisen pituus, säilytyspaikka ja -tapa vain vaihtelevat. On mahdotonta sanoa kumpi tulkinta on ns. oikea. Kannattaa muistaa tässäkin kohtaa tarkistaa kumpaa merkitystä tarkoitetaan.

Pitkäaikaissäilytys (engl. long-term preservation, digital preservation)

Yleinen ajatus datanhallinnan kontekstissa:

Datan pitkäaikaissäilytyksellä (PAS) tarkoitetaan datan siirtämistä säilytyspalveluun pitkäksi ajaksi, useiksi vuosikymmeniksi tai sadoiksi vuosiksi.  Pitkäaikaissäilytyksen tavoitteena on pitää data sellaisessa kunnossa ja muodossa, että se on myös tulevien sukupolvien uudelleen käytettävissä. Datan tulee olla myös ymmärrettävää. Tiedostomuotojen tulee aueta tulevaisuuden tietokoneilla, ja tätä varten säilytyspalvelu virkistää ja tarvittaessa konvertoi dataa. Data ilman riittävää ja yksiselitteistä dokumentointia on hyödytöntä ja resurssien hukkaan heittämistä. Dataa ei voida säilyttää, ellei sen omistajaa tunneta tai sen käyttämisestä ei ole sovittu tai tietoa ei ole saatavilla.

Data ilman riittävää ja yksiselitteistä dokumentointia on hyödytöntä ja resurssien hukkaan heittämistä.

Arki- ja ammattikielen aiheuttamat sekaannukset:

Välillä on vaikea selittää, mikä on pitkäaikaissäilyttämistä. Joskus sanotaan, että yli 25 vuoden säilytystä tarjoavat palvelut ovat pitkäaikaissäilytyspalveluja. Mutta dataa voi periaatteessa tallettaa yliopiston verkkolevylle 30 vuodeksi (jos työntekijä tai tutkimusryhmä pysyy yliopistolla näin pitkään). Silti verkkolevy tai kovalevy kirjahyllyssä eivät kuitenkaan ole pitkäaikaissäilytystä. Varsinaisiksi pitkäaikaissäilytysratkaisuiksi mielletään palvelut, joihin liittyy säilytettävien data-aineistojen valintaprosessi, selkeät säilytys- ja käyttösopimukset, useamman kuin yhden kopion säilyttäminen maantieteellisesti eri paikoissa, selkeät vastuut, turvattu rahoitus, jne. Hyvillä pitkäaikaissäilytyspalveluilla on toiminnan laadusta kertova sertifikaatti.

Joskus pitkäaikaissäilyksestä käytetään myös sanaa pysyvä säilytys. Pysyvä säilytys (engl. permanent preservation) kuulostaa digitaalisen säilyttämisen ammattilaisten korvaan epärealistiselta ja harvoin järkevältä tavoitteelta muuttuvassa maailmassa. Millaista dataa tarvitsee säilyttää miljardeja vuosia? Tämän vuoksi pitkäaikaissäilytys on yleisemmin käytetty termi aivan samaa tarkoittavasta asiasta. Joissain lakiteksteissä käytetään arkistotoimen perinteen mukaista termiä pysyvä säilyttäminen, vaikka se kutittelee monen datanhallinnan asiantuntijan nauruhermoja. Lakitekstien vuoksi sanan käyttö saattaa alkaa vähitellen yleistyä myös datanhallinan kontekstissa. Lainsäädönnössä termiä ei tosin käytetä johdonmukaisesti. Tiedonhallintalaissa ”pysyvä säilyttäminen” tarkoittaa tietoaineiston säilyttämistä alkuperäisiin käyttötarkoituksiin, ei arkistointia. Arkistolaissa käytetty käsite ”pysyvä säilytys” vastaa tiedonhallintalain käsitettä arkistointi.

Toinen yleinen hämmennyksen aihe liittyykin sanaan arkistointi. Onko pitkäaikaissäilyttäminen tutkimusdatan arkistointia? Arkikielen näkökulmasta se voi hyvinkin sitä olla. Jos säilyttäminen tehdään data-arkistossa, säilyttämistä on loogista kutsua arkikielessä arkistoinniksi. Mutta erityisesti juristien käyttämässä ammattikielessä termi arkistointi saa spesifisiä merkityksiä. Sen vuoksi esimerkiksi henkilötietoa sisältävää tutkimusdataa ei yleensä  voida arkistoida, mutta sitä voidaan säilyttää pitkään (kunhan data pysyy alkuperäisessä käyttötarkoituksessaan). Tämä hiustenhalkominen johtuu sanan ”arkistointi” määrittelystä lainsäädännössä. Valitettavasti eri laeissa arkistointi on vieläpä määritelty eri tavoin (ks. tiedonhallintalaki ja arkistolaki).  Tämän sekavuuden vuoksi datanhallinnan kontekstissa sanaa ”arkistointi” oppii varmuuden vuoksi välttelemään. ”Arkistointi” on sanana datanhallinnan ammattilaiselle lähes yhtä hankala kuin kirjainyhdistelmä GDPR tutkijalle.


Esimerkkejä sanastoista:


Liisa Siipilehto (TUHAT, ORCID, @siipiliisa) työskentelee tietoasiantuntijana Helsingin yliopiston kirjastossa ja Datatuessa.

Mari Elisa ”MEK” Kuusniemi (TUHAT, ORCID, @MEKTerkko) työskentelee tietoasiantuntijana Helsingin yliopiston kirjastossa ja Datatuessa. Hän on mukana kansallisissa ja kansainvälisissä datanhallinnan asiantuntijaryhmissä ja yhteistyössä (mm. DMPTuuli, EOSCNordic).