Datanhallinta käytännössä: havaintoja historian graduseminaarista

Yliopiston yleiset ohjeet ja linjaukset kertovat, miten tietoa tulisi käsitellä vastuullisesti. Miten nämä ohjeet kääntyvät oman tieteenalan käyttöön? Historian professori Anu Lahtinen kertoo blogilastussaan, miten historian opetus hakee tuntumaa datanhallintaan ja sen opettamiseen. Graduseminaarissa tehty harjoite toi esiin sen, että uudet teknologiat muuttavat aineistonhallintaa, mutta tieteenalan peruslähtökohdat vaikuttavat käytännön toteutukseen ja ohjaavat sitä.

Teksti: Anu Lahtinen (Helsingin yliopisto)

Eräs avoimen ja vastuullisen tieteen avainkysymyksiä on, miten tutkimusaineiston elinkaaresta huolehditaan. Datanhallintaan liittyy monia muistiinpanojen, tietosuojan, aineiston järjestämisen, jakamisen ja tallettamisen kannalta tärkeitä kysymyksiä. Harvoin kuitenkaan jok’ikinen datahallinnan kysymys koskettaa jokaista opiskelijaa tai tutkijaa.

Varsinkin opiskelijoiden näkökulmasta ajatus suurten aineistojen kokoamisesta tuntuu selvästi hiukan vieraalta, ja joka tapauksessa on tyypillistä, että gradua tekevä opiskelija pohtii, mitä yleisohjeet tarkoittavat juuri hänen aiheensa tai aineistonsa osalta. Olen pohtinut tätä itsekin tutkijana, kun olen ollut mukana testaamassa ja tekemässä historia-alan aineistonhallintasuunnitelman (Data Management Plan, DMP) ohjeistusta.

Aineistonhallinta on aihe, jota historioitsijat ovat pohtineet vähän eri käsittein jo pitkään, mutta digitaalisuus tuo aiheeseen omat uudet mahdollisuutensa ja haasteensa. Opetuksessa datanhallintakin kuuluu niihin aiheisiin, jotka on esiteltävä vähin erin ja muuttuvien tilanteiden mukaan: DMP-ohjeiden täräyttäminen johdantokurssilaisten eteen jättäisi aiheen luultavasti liian abstraktiksi ja etäiseksi.

Harjoite ja sen toteutus

Graduseminaarin vetäjänä ja opinnäytetöiden ohjaajana olin kiinnostunut siitä, miten historian graduseminaarilaiset kokivat datanhallintakysymykset ja miten datanhallintaohjeet mahdollisesti tukivat heidän työtään. Siksi tein vuoden alussa lyhyen orientaatiotehtävän, jossa pyysin gradueminaarilaisiani pohtimaan vajaan liuskan verran, mitä datanhallinta merkitsi heidän gradutyössään. Harjoitteen pohjana toimi myös ideointikeskustelu Helsingin yliopiston kirjaston väen kanssa.

Annoin tehtävän tueksi linkin yliopiston kirjaston Datanhallinnan perusoppaaseen ja pyysin seminaarilaisia pohtimaan vajaan liuskan verran, mitä datanhallinta heidän omalle gradutyölleen merkitsi. Esitin lisäksi seuraavat kysymykset:

  • Millaista dataa omassa gradutyössäsi syntyy?
  • Miten säilytät ja järjestät datasi?
  • Syntyykö gradutyön aikana aineistoja, jotka haluaisit säilyttää ja jakaa?

Vastauksia tuli yksitoista, eli käytännössä kaikilta seminaarilaisilta. Tämä blogilastu pohjautuu lyhyeen raporttiin, jonka lähetin myös seminaarilaisille luettavaksi kevään päätteeksi.

Millaista dataa gradutyössä syntyy?

Historian alalla tutkimus kohdistuu ennen kaikkea teksteihin, asiakirjoihin ja julkaisuihin, jossain määrin myös kuviin. Tyypillisesti lähteitä käydään lukemassa arkistoissa tai vastaavissa kokoelmissa, ja tutkimuskirjallisuuteen perehdytään kirjastossa tai sähköisten yhteyksien kautta. Arkistoissa tehdään muistiinpanoja, myös sähköisiä kokoelmia ja tietokantoja voidaan käyttää ja koota omalle koneelle tietoja mm. Kansalliskirjaston digitaalisesta sanomalehtiarkistosta tai Kansallisarkiston digiarkistosta. Opiskelijoiden vastaukset heijastavat hyvin tätä tilannetta.

Useimmat seminaarilaiset totesivat kokoavansa aineistoa tekstitiedostoiksi (muistiinpanot, gradutyön käsikirjoitusversiot) sekä exceliin. Exceliä käytettiin tyypillisesti arkistomateriaalin jäsentämiseen, tekstitiedostoja oman tulkinnan työstämiseen. Osa opiskelijoista totesi rakentavansa excel-muistiinpanot siten, että tiedosta saattoi myöhemmin jäsentää esimerkiksi taulukoita tai muuta numeraalista tietoa.

Gradutyöskentelyssä oli tyypillistä, että arkistoaineistoja kuvattiin myöhempää analyysiä varten. Kuviin liittyvien, esimerkiksi exceliin koottavien metatietojen (päivämäärä, vuosi, tiedostoa kuvaava nimitys) todettiin helpottavan datan löytämistä. Opiskelijat myös litteroivat/transkriboivat eli kirjoittivat tekstiksi kuvaamiensa tai lukemiensa lähteiden sisältöjä. Moni ilmoitti myös tekevänsä käsin tai paperille muistiinpanoja, ja kirjallisuudesta ja muusta aineistosta oli voitu ottaa kopioita tai paperitulosteita. Paperille saatettiin kirjoittaa sekä lähdetietoja että aineistojen herättämiä ajatuksia, oivalluksia ja jatkokysymyksiä.

Miten säilytät ja järjestät datasi?

Historiantutkimuksessa hyvin tyypillisesti käytetään monenlaisia aineistoja ja arkistoja, joiden tietoja yhdistellään. On varsin eri asia tutkia ja jäsentää vaikkapa eduskunnan pöytäkirjoja kuin 1600-luvun pamfletteja tai keskiaikaisia latinankielisiä fragmentteja. Aineiston järjestäminen on siksi aihekohtaista ja etenee aineiston karttuessa.

Opiskelijat kuvasivat useimmissa tapauksissa, että keskeinen aineisto oli järjestetty tietokoneen erikseen nimettyihin kansioihin, satunnaisemmat havainnot ja aineistolöydöt saattoivat olla hiukan epäjärjestyksessä. Kansiointia voisi verrata arkistoalalta tuttuun arkistokaavaan. Tyypillisesti, jos kirjallisuusviitteiden hallintaan käytettiin ohjelmaa, mainittiin RefWorks. Kevätlukukaudella historian yksikössä järjestettiin historian maisteriohjelman digiloikka -hankkeen osana myös Zotero-koulutusta ja aineiston jäsentämisestä annettiin graduseminaarissa muutenkin ohjeistusta. (Itse käytän Endnotea.)

Osa seminaarilaisista oli käyttänyt tallennukseen ja varmuuskopioihin muistitikkua, useita tietokoneita tai pilvipalveluita (Google Drive tai yliopiston säilytyspalvelut), osa pohtinut niiden käyttämistä. Tallennus- ja varmuuskopioinnin osalta tuli mieleen, että opetuksessa voisi olla tärkeää tuoda esiin tietosuojakysymykset.

Aineiston jakaminen

Aineistojen jakaminen on aihe, joka keskusteluttaa ja johon liittyy paljon toiveita. Historian tutkimukselle on tyypillistä, että graduntekijä saavuttaa syvällisen tuntemuksen käyttämästään aineistosta, ja toisinaan syntyy esimerkiksi väestökirjanpitoon, oikeusasiakirjoihin tai taloushallintoon perustuvia aineistokokonaisuuksia, jotka olisivat hyödyllisiä esimerkiksi jatkotutkimuksen, suuren yleisön tai aiheeseen linkittyvien organisaatioiden kannalta.

Gradut julkaistaan joka tapauksessa nykyään avoimesti yliopiston palvelimella, Helda-julkaisuarkistossa, joten graduun päätyvät havainnot ja taulukot ovat saatavilla sitä kautta. Usea graduntekijä mainitsi, että oli aikeissa jättää valmiista gradutyöstään kappaleen organisaatiolle (yritys, kunta), jonka historiaa gradutyö tulisi sivuamaan. Tämä onkin hyvä täsmätiedotusidea, sillä toisinaan esimerkiksi kaupunginmuseon oma käsikirjasto voi olla tietoa hakeville helpompi tietolähde kuin laaja Helda-aineisto.

Muutama opiskelija mainitsi taulukot, joita arkistoaineistosta syntyy, sekä edelleen työtään jäsentävät kuvaajat. Kaikki tällainen aineisto ei välttämättä päädy itse graduun, joten niiden säilyttäminen tai avaaminen voisi olla mahdollista. Talletusalustoista mainittiin pilvipalvelu tai henkilökohtaiset tallennusversiot.

Historiassa suuri osa arkistoaineistosta on jo avoimesti saatavilla esimerkiksi julkisissa arkistoissa tai sähköisinä tietokantoina tai aineistoina (esimerkiksi Kansalliskirjaston tai Kansallisarkiston digitaalisissa palveluissa). Joissakin tapauksissa opiskelija on saattanut kuvata ja koota paljon valokuvia arkistoaineistoista. Tarkoilla metatiedolla varustettu kokoelma arkistokuvia voi tukea jotakuta samaa aihetta tutkivaa, mutta arkistoilla voi myös olla rajoituksia sen suhteen, saako otettuja asiakirjakuvia antaa eteenpäin.

Osa graduntekijöistä ajatteli, että voisi periaatteessa mielellään säilyttää tai jakaa aineistoaan, jos löytäisi niistä kiinnostuneita toimijoita. Muutama graduntekijä nimesikin jatkokäyttöaikeita tai kollegoja, joille aikoi kertoa aineistosta. Jotkut graduntekijät olivat aikeissa jatkaa itse aineiston parissa työnsä valmistuttua.

Loppuhavaintoja

Tein harjoitteen yhtenä graduseminaariin kuuluvana tehtävänä nyt ensi kertaa, ja kuten tavallista, vastaukset toivat esiin täsmennystarpeita sekä opetuksessa että itse harjoitteessa. Huomasin esimerkiksi, mitä olin jättänyt kysymättä – olin epäsuorasti toivonut, että opiskelijat kertoisivat, mitä tukea katsoivat tarvitsevansa, mutta koska kysymys jäi eksplikoimatta, vastauksetkin jäivät saamatta ja jouduin tekemään päätelmiä epäsuorasti. Datahallintaopas antoi kuitenkin hyvän yleisluontoisen rungon, jonka avulla aihetta voitiin lähestyä riittävän yleisellä tasolla.

Vedän graduseminaaria myös lukuvuonna 2019–2020, ja olen ajatellut, että ensi vuonna teetän samanlaisen orientaatiotehtävän heti seminaarin alkupuolella. Kevätpuolella, kun opiskelijat käyvät konkreettisesti perehtymään aineistoihin, voimme lyhyesti keskustella, miten työskentely ehkä muuttaa ajatuksia datanhallinnasta. Ensi lukuvuonna tiedän ja keskustella myös tarkemmin esimerkiksi datanhallintaoppaan antamasta hyödystä.

Graduun liittyy paljon muutakin kuin aineistonhallinnan kysymyksiä, joten tässä kuvattu harjoite on vain yksi osa suurta kokonaisuutta. Joka tapauksessa kyseessä on esimerkki siitä, miten yleisiä linjauksia arjessa sovelletaan ja tulkitaan eri alojen käytännön opetuksessa ja tutkimuksessa. Arjen harjoitteilla rakennetaan kokonaisuutta ja myös saadaan palautetta siitä, mikä käytännössä toimii parhaiten. Näin aineistonhallinnan päivitetyt periaatteet toivottavasti tavoittavat graduntekijät, joista osa on tulevia tutkijoita tai muita datahallinnan(kin) ammattilaisia.


Anu Lahtinen (TUHAT, ORCID, @anulah) toimii Helsingin yliopiston historian professorina ja Historian maisteriohjelman digiloikan johtajana. Hän on aiemmin kertonut Think Open -blogissa historian yksikön ja avoimen tieteen koulutuspilotin kokeiluista ja toimii HY:n datatukiverkoston historian yksikön yhteyshenkilönä.