Kulttuuriperintöaineiston digitalisaatio vaatii monenlaista osaamista, jota julkisessa keskustelussa ei aina oteta huomioon. Aineiston käytettävyys edellyttää erityisesti kuvailua eli metadataa, joka vanhassa aineistossa on monesti puutteellista ja vaatii täydentämistä. Digitaalisten kulttuuriperintöaineistojen on myös tarkoitus säilyä ja olla ymmärrettäviä jopa satojen vuosien kuluttua, mikä on huomioitava pitkäaikaissäilytysratkaisuissa.
Teksti: Johanna Lilja (Kansalliskirjasto)
Painettujen julkaisujen digitoimiseen kohdistuu suuria odotuksia. Kun Kansalliskirjasto vuonna 2021 avasi digitoimansa 1930-luvun sanomalehdet, alkoi yleisö välittömästi tiedustella, milloin 1940-luvun lehdet saadaan käyttöön. Odotukset sota-ajan lehtien verkkokäyttöön ovat vain voimistuneet sen jälkeen, kun sodasta on tullut arkipäivää Euroopassa. Tänä päivänä Kansalliskirjasto voi tarjota yleisölle 1940-luvun lehdistä säätiöiden ja muiden hankerahoittajien kustannuksella digitoidut ja avatut ruotsinkieliset sanomalehdet.
Digitointiin liittyy usein helppouden harha – surautetaan skannerilla, niin digitoitu sisältö on tallessa ja käytettävissä. Kuitenkin, jos kulttuuriperinnön digitoimisessa keskityttäisiin määrään laadusta välittämättä, tuloksena olisi miljoonien sivujen kaaos, jonka elinkaari jäisi lyhyeksi. Siksi kulttuuriperinnön digitalisaatio ei ole niin nopeaa kuin odotetaan.

Metadata tekee aineistosta ymmärrettävää ja löydettävää
Kansalliskirjastolla on kulttuuriaineistolakiin perustuva velvoite tallentaa koko suomalainen julkaisutuotanto ja tarjota se käyttöön. Molempien tarkoitusperien toteuttaminen edellyttää aineiston kuvailua eli metatietoa, joka vanhassa aineistossa on usein puutteellista ja vaatii täydentämistä.
Digitoidun aineiston käyttäjän on helppo löytää aineistoja digi.kansalliskirjasto.fi -palvelussa, kun haun voi kohdistaa muihinkin elementteihin kuin sisältöön ja hakutuloksia voi järjestellä vaikkapa tekijän, julkaisupaikan tai -vuoden mukaan. Tämä ei onnistuisi ilman kuvailutietoja.
Myös erilaisten kokoelmien ymmärtämisen ja tulkinnan kannalta on olennaista tietää, mistä nimekkeistä ne koostuvat, miten ne ovat syntyneet, mitä aikakausia ne kattavat ja onko niissä puutteita tai vinoumia. Ihmistieteiden tutkimuksessa kuvailutieto seuraa aineistoa analyysiin, olipa kyseessä perinteinen tekstejä tulkitseva tutkimus tai suuria datamassoja hyödyntävä tiedonlouhinta. Ilman luotettavaa, kontekstia taustoittavaa metatietoa aineiston käyttäjä on datakokonaisuuden tulkitsijana yhtä sokkona kuin kemisti saadessaan tutkimusta varten alkuainesäiliöt ilman etikettiä. Jotain voi toki aina päätellä omin havainnoin, mutta ilman varmistettua tietoa aineiston kontekstista sen sisällöstä on vaikea tehdä vakuuttavia johtopäätöksiä.

Automaattista kuvailua kehitetään
Metatiedon tuotannon automatisoimiseksi on meneillään useita hankkeita. Kansalliskirjastossa kehitetty Annif-robotti tekee jo vakiintuneesti sisällönkuvailua tekstiaineistoista, mutta bibliografista kuvailua toteuttavaa automaatiota vasta kehitetään. Kansallisarkiston DALAI-hankkeessa tekoälyyn perustuvaa automatisaatiota on kehitetty arkistoaineistojen metatiedon tuottamiseen. Toistaiseksi kuitenkin vanhan digitoitavan paperiaineiston kuvailussa tarvitaan ihmistyötä.
Digitoinnin tekninen laatu edellyttää sekin useita työvaiheita: skannaamista riittävällä resoluutiolla, automaattisen tekstintunnistuksen prosessin hallinnointia, mahdollisten puutteiden tarkastamista ja korjaamista sekä aineiston rakenteistamista ja tallentamista tarkoituksenmukaisissa formaateissa. Korkeasta teknisestä laadusta hyötyy niin aineistoa verkosta hakeva ja lukeva käyttäjä kuin koneellista analyysiä tekevä tutkijakin.
Aineistojen säilytys turvataan PAS-ratkaisussa

Kansalliskirjaston kokoelmien keskiaikaiset pergamenttifragmentit ovat edelleen vilkkaassa tutkimuskäytössä. Myös digitaalisten aineistojen tarkoitus on säilyä ja olla ymmärrettäviä satojen vuosien kuluttua. Tämän turvaa opetus- ja kulttuuriministeriön rahoittama ja Tieteen tietotekniikan keskuksen CSC:n tarjoama pitkäaikaissäilytysratkaisu PAS. PAS-ratkaisun toteuttaminen edellyttää aineistolta tiettyjä formaatteja, bibliografista ja teknistä kuvailutietoa sekä huolellisesti suunniteltua ja valvottua lähetysprosessia.
Digitalisaation laatua on myös tekijänoikeuksien kunnioittaminen ja käyttäjän informoiminen siitä, mitä aineistolla voi tehdä. Sitten kun kaikki 1940-luvun lehdet saadaan digitoiduksi ja halutaan tarjota yleisökäyttöön, on Kansalliskirjaston maksettava tekijänoikeudenalaisen aineiston avaamiseen liittyvä lisenssimaksu. Uunituore tekijänoikeuslaki ei tuonut muutoksia velvoitteeseen sopia tekijänoikeusjärjestön kanssa aineiston avaamisesta.
Digitaalisen sisällön laatuun panostaminen tarkoittaa siis monia asioita: riittäviä kuvailutietoja, korkeaa teknistä laatua ja tekijänoikeuksien hallintaa. Laatu mahdollistaa aineiston monipuolisen käytön ja säilyvyyden. Ilman resursointia laadukasta digitaalista sisältöä ei voi tuottaa. Tarvitaan siis vankkaa kulttuuritahtoa, jos kaikille avointa digitaalista sisältöä halutaan nopeasti lisää.
Johanna Lilja (Tuhat, ORCID) työskentelee palvelujohtajana Kansalliskirjaston Tutkimuskirjastossa.
Kyllä tuokin on naurettavaa että jollakin Kopiostolla on oikeus rahastaa 80 vuotta vanhoista sanomalehdistä. Tekijänoikeusmafioiden rötösherrat ovat mielissään näistä suojelurahoista jotka ovat sitten pois kulttuuriperinnön digitointityöstä. Tuskin menee todellisuudessa montakaan senttiä niille haudassa jo oleville toimittajille tai heidän perillisilleen.
Kummallista ettei edes lehdet itse saa digitoida omia vanhoja lehtiään elleivät maksa siitä ensin Kopiostolle. Liian tiukat tekijänoikeuslait muodostavat uhan kulttuuriperinnön tallentamiselle.
Kulttuuriperintöä kyllä digitoidaan ja tallennetaan, vaikka kaikkea ei voida tarjota avoimeen käyttöön. Kaikki digitoidut lehdet ja kirjat ovat käytössä vapaakappaletyöasemilla vapaakappalekirjastoissa https://www.kansalliskirjasto.fi/fi/vapaakappaletoimisto/vapaakappaleaineistojen-kaytto. Toki mielellämme digitoisimme enemmän ja avaisimme nykyistä laajemman aineiston yleisölle.
Etenkin paikallismuseoissa ja kotiseutuarkistoissa mennään helposti tuohon digitoinnin helppouden harhaan: vanhan valokuvan luullaan olevan kunnolla digitoitu silloin kun kuva saadaan skannerista näkymään tietokoneen näytölle. Monesti digitoidaan liian pienellä resoluutiolla ja väärään tiedostoformaattiin.
Ongelma johtuu siitä että monessakin pienessä museossa tilaajat ja työtä tekevät ovat usein iäkkäämpiä joilla ei ole juuri minkäänlaista asiantuntemusta digitaalisista formaateista. Joissain tapauksissa digitointityöhön palkataan kesätöihin Instagram-sukupolven nuoria joilla ei ole enää minkäänlaista käsitystä tiedostojenhallinnasta.
Ja vielä mitä tulee painotuotteisiin: kotiseutuyhdistyksemme on 2000-luvulla julkaissut useita kirjoja eikä yhdestäkään ole käynyt mielessäkään säilyttää painotiedostoja vaan niitäkin nyt on sitten skannailtu skannerilla digimuotoon.
15 vuotta sitten olimme aikaa edellä kun kotiseutuarkistomme digitoi noin 300 vanhaa VHS-kasettia ja kaikki suoraan DVD:lle normaaliin video-DVD muotoon eikä suoraan videotiedostoiksi. Kaiken kukkuraksi DVD:eihin oli tungettu poltto-ohjelman tyrkyttämä ylimääräinen oletusvalikko. Nyt sitten on ongelmana kun näitä ISO-tiedostoja pitää muuntaa normaaleiksi videotiedostoiksi.
Tässä vähän kuulumisia millaista sekoilua digitointityössä tehdään paikallistasolla.
Tällä hetkellä suurin ongelma kaikelle digitoinnille on digitointityön heikko arvostus päättäjien tasolla. Kulttuurimäärärahoista vain murusia ohjataan digitointeihin ja kaiken maailman oopperoille kyllä löytyy peräti 40 miljoonaa euroa joka vuosi. Sekä Kansallisarkiston ja Kansalliskirjaston molempien digitointibudjetit ovat vain muutaman miljoonan euron tasolla.
Jos kulttuuriperintö saataisiin digitoitua kunnolla ja helposti hyödynnettäväksi niin siitä olisi valtavasti hyötyä uuden kulttuurin luonnissa ja historian ymmärtämisessä. Ongelma on siis vain se että päättäjille on seksikkäämpää tukea miljoonilla jotain oopperoita tai teattereita kuin digitointeja.
Kun katsoo kaikenlaisia kulttuuriavustuksia niin aika pieniksi jäävät digitoinneille myönnetyt avustukset. Lähinnä Museovirasto myöntää muutamia tonneja vuosittain digitointeihin.
Kulttuurirahastolle digitoinnista apuraha-anomuksia tehneenä olemme saaneet huomata että rahaa ei yksinkertaisesti tule jos tarkoituksena on pelkkä digitointi ja pitkäaikaissäilytys. Siihen pitäisi keksiä vaikka joku huuhaamainen kuvakirjan teko digitoiduista aineistoista keksiä rinnalle eli siellä ei oikein kovin pitkälle ajattelua arvosteta.
Uudessa Orpon hallituksen hallitusohjelmassa löytyy yhden lauseen maininta kulttuuriperinnön digitoinnista:
”Hallitus turvaa kulttuuriperinnön säilymistä digitoinnin avulla.”
Saas nähdä tullaanko kulttuuriperinnön digitointityöhön saamaan lisää määrärahoja jotta työ nopeutuisi.