Uusi käyttöliittymä digitoiduille aineistoille

Opetusministeri Sari Sarkomaa avasi tänään Kansalliskirjaston Mikkelissä toimivan Kansallisen digitointikeskuksen digitoimien aineistojen uuden käyttöliittymän.

Samalla avattiin suositun Historiallinen sanomalehtikirjasto -palvelun laajennusosa, joka sisältää runsaasti uutta aineistoa. Vuosina 1771-1890 ilmestyneitä suomalaisia sanomalehtiä sisältävä palvelu on vapaasti kaikkien tiedonhakijoiden käytettävissä. Continue reading

Elektra uudessa ympäristössä

Aikuiskasvatus, Politiikka, Lakimies, Psykologia, Terra, Sosiologia, Virittäjä, Tiedepolitiikka, Musiikin Suunta, Gerontologia, Kirkkohistoriallisen seuran vuosikirja… Kansalliskirjaston ylläpitämässä Elektra-palvelussa on nykyään mukana noin kolmasosa keskeisistä kotimaisista tieteellisistä lehdistä. Elektralle on avattu marraskuun alussa uusi käyttöliittymä (https://oa.doria.fi/elektra), joka hyödyntää Kansalliskirjaston Doria-palvelua. Continue reading

Avautuvia aineistoja – mutta millä ehdoilla?

Brewster Kahle on julkaissut verkossa “Libraries Going Open“-nimisen kirjasen, joka on hänen kokoamansa Open Content Alliancen toiminnan mainos ja samalla ohjelmajulistus. Aiemmin mm. Internet Archiven perustajana tunnettu Kahle on koonnut parin viime vuoden aikana kirjastojen ja muiden muistiorganisaatioiden yhteenliittymää, joka pyrkii digitoimaan omia kokoelmiaan ja julkaisemaan niitä avoimesti verkossa. Continue reading

Shakespearen kovalevy

Mitä oikein löytäisimme, jos pääsisimme kurkistamaan William Shakespearen tietokoneen kovalevylle? Löytyisikö jostain sen syövereistä kenties tiedosto, jonka nimi on Hamlet.doc? Voisimmeko päätellä kovalevylle tallentuneiden selaimen historiatietojen perusteellä, millä internet-sivuilla kirjailija oli surffannut edellisenä iltana ennen kuin aloitti tiedoston muokkaamisen? Continue reading

OhioLink (ALA, 6.posti)

Sessio: “Issues and Trends in Digital Repositories of Non-textual Information: Support for Research and Teaching”.

Thomas Dowling esitteli OhioLINKin Digital Resource Commonsia. OhioLINK on Ohion osavaltion kirjasto- ja tietopalveluverkosto – konsortio, joka monessa suhteessa muistuttaa Suomen FinELibiä ja Linnea-konsortiota. Paitsi, että kuten Amerikkaan sopii, se on ainakin joissain suhteissa isompi. Muun muassa se lataa lisensoiduista tietokannoista artikkelit paikalliseen tietokantaan, jossa niitä onkin sitten 9 miljoonaa, ynnä muutamia tuhansia e-kirjoja.

OhioLINKillä on ollut ja on monenlaisia digitaalisen aineiston järjestelmiä – OhioLINK electronic theses and dissertatioms (http://www.ohiolink.edu/etd), OhioLink Digital Media Center (http://dmc.ohiolink.edu/) jne. Niinpä mieleen onkin siellä tullut, pitäisikö kaikki digitaaliset kokoelmat siirtää yhteen järjestelnmään – joka olisi toteutettu avoimen lähdekoodin ohjelmistoilla.

Dowling oli vahvasti sitä mieltä, että vapaa lähdekoodi – ajateltakoon nyt sellaisia tapauksia kuin Apache, Lucene, Tomcat ym. – voi tarjota alansa parhaan ratkaisun. Niinpä Fedora on ollut se alusta, jolle OhioLINKissä on alettu rakentaa.

Tässä välissä sopinee huomauttaa, että DSpace ja Fedora ovat olleet ne arkistoinnin OSS-ratkaisut, jotka kerta kerran jälkeen ovat seuraamissani sessioissa tulleet esiin. Jos jotakin muuta on ollut, se on useimmiten ollut yliopiston kokonaan itsensä rakentamaa. Kaupallisia tuotteita kukaan ei ainakaan ole kehdannut ääneen mainita.

Se, mikä lisäksi kiinnitti huomiota, on se, että kaikki Fedorasta puhuneet ovat koristelleet puheensa sivuhuomautuksilla siitä, kuinka raskasta ja aikaavievää sen implementointi on ollut – jos nyt mitään valmista edes vielä on ollut esittää. Pitkällä aikavälillä ratkaisun on kuitenkin vakuutettu olevan oikea. Ehkäpä todellakin pitkällä aikavälillä Fedoran ympärille kehittyy lisäosia, joiden avulla sitä voi päästä oikeasti käyttämään, mutta se kehitys on kyllä vielä kesken. Kovasti uskoa ja lujaa luottamusta vielä tarvitaan, ynnä pivollinen koodareita, jos Fedoraa aikoo käyttää.

Fedoran lisäksi OhioLINKIssä on ollut agendalla Ohion-laajuisen DSpace-järjestelmän rakentaminen, mikä on kuitenkin viivästynyt muiden kiireellisten tehtävin takia. Haastetta ei pienennä se, että asiakkaina olisi 85 instituutiota. Tässä yhteydessä Dowling sivusi myös OAI-PMH-protokollan tiettyjä rajoituksia. Kyse ei ole niinkään itse protokollan puutteista, vaan sen oikeasta käytöstä. Jos esimerkiksi Ohiossa 85 tahoa alkaa haravoimaan toisiaan, tuloksena on kaaos. Jonkinlainen keskittäminen on siis paikallaan. OAI-hygieniaan pitänee vielä palata tässäkin blogissa!

Jos ei ole metadataa, ei kannata digitoida (ALA, 4.posti)

Digitaalisten aineistojen hallinta – säilyttämisen näkökulma. Aiheesta olivat puhumassa Janet Gertz Columbian yliopistosta; Robin Wendler Harvardin yliopistosta; sekä Joseph JaJa Marylandin yliopistosta. Metadata, metadata, metadata, siinäpä tiivistetysti näiden asiantuntijoiden sanoma – josta sanomasta kyllä hieman kiisteltiinkin.

Janet Gertzin esityksestä jäi ennen kaikkea mieleen valinnan merkitys: digitoinnin mielekkyys ja onnistuminen on digitoitavan aineiston onnistuneen valinnan varassa. Se on elintärkeää toiminnan tehokkuden kannalta; ei vain niin, että muuten digitointi on hidasta ja kallista vaan jopa niin, että tuotettu aineisto on käytännöllisesti katsoen hyödytöntä.

Valinnan ensi askel on taas kohdeyleisön määrittely, koska se ohjaa monia digitoinnin kuluessa tehtäviä päätöksiä. Hänellä oli esimerkkinä vanha geologisten valokuvien kokoelma. Niitä voidaan käsitellä aineistona, jolla on merkitystä geologeille; mutta toisaalta kuvissa näkyy paljon sellaista, jolla on historiallista ja kulttuurista merkitystä geologian ulkopuolella. Pidetäänkö kohdeyleisönä esim. suurta yleisöä, jolle kuvilla on paikallishistoriallista arvoa?

Edelleen valinnassa on otettava huomioon aineiston laatu ja kunto. Tyypillinen esimerkki ongelmallisesta aineistosta siinä suhteessa ovat suttuiset sinikopiot ja sen sellaiset. Jos sisällöstä ei saa selvää, miksi digitoida?

Monia muitakin aspekteja on, esim. kriittinen massa vs ainutkertaisuus. Kannatttaako digitoida halpaa paperista pyhimyksenkuvaa? Ei, mutta laaja kokoelma halpoja paperisia pyhimyksenkuvia onkin tutkimuksen kannalta merkittävä ja siksi digitointi kannattaa. Toisaalta jokin uniikki kirja tms. kannattaa digitoida yksittäisenäkin.

Ja sitten se metadata. Metadataa ei koskaan voi olla liikaa! Gertz tähdensi. Jos aineisto ei ole hyvässä järjestyksessä ja kunnollisesti kuvailtu, älä edes uneksu digitoivasi sitä!

Tästä sitten vähän keskusteltiinkin. Gertzillä oli varoittavana esimerkkinä kokoelma luonnospiirustuksia, joista ei ollut kunnon metadataa. Yleisöstä kysyttiin, mitä mielekästä metadataa niistä voisi olla, keskenään samannäköisistä saman aiheen luonnoksista. Mikään sanallinen kuvailu ei olisi hyödyllinen, vaan käyttö perustuisi kuitenkin kuvien katseluun. Ongelma ei siis kenties ollut metadatan puute vaan esikatselukuvien puute. No, Gertzhän oli tähdentänyt myös aineiston järjestystä, mikä taas tässä tapauksessa oli elintärkeää. Jos aineistoja kuvaillaan vain kokoelmatasolla, kokoelmien pitää olla järkeviä (tai noudattaa fyysisen aineiston säilytystapaa). Ja edelleen: sitä merkittävämpää on kokoelmatason kunnollinen luettelointi

Digitaalisella objektilla tulee siis olla konteksti, ja metadata tarjoaa sen kontekstin. Saapuipa käyttäjä tarkastelemaan objektia mitä kautta tahansa, sen pitäisi esiintyä kontekstissaan; tämä asettaa sitten tiettyjä vaarimuksia esim. käyttöliittymälle.

Robin Wendlerin esitys heijasteli samaa ajattelutapaa. Hän korosti metadatan oikea-aikaista keruuta: osa metadatasta on sellaista, että se on välttämätöntä kirjata tietyssä prosessin vaiheessa, tai se menetetään kokonaan. Tällaista on esim. digitoinnissa käytettyjä asetuksia koskeva tieto. Toinen seikka, jota Wendler korosti – ja jossa kuulema usein laistetaan – on digitoinnin laadunvarmistus. Huonona esimerkkinä oli Google, joka ei kai yritäkään valvoa laatua, ja esimerkkejä sotkuista onkin sen digitoimissa kirjoissa helppo löytää.Niiden korjaaminen olisikin sitten aikamoinen haaste.

Joseph JaJa esitteli ADAPT-hanketta (An Approach to Digital Arciving and Preservation Technology) ja ACEa (Auditing Control Environment).

ADAPT on monikerroksinen digitaalisten aineistojen hallinnan arkkitehtuurikonsepti, jonka ympärille on keitetty myös avoimen lähdekoodin työkaluja. Siitä on pyritty rakentamaan sellainen, että se sopeutuu hyvin erilaisiin toimintaympäristön muutoksiin. Hanke on vielä kokeiluvaiheessa, ja kehitetyt työkalut ovat vielä hieman tiskin alla. (Tätä kirjottaessani hankkeen demotkaan eivät oikein tunnu toimivan.)

ACEn tarkoitus on automatisoida säilytettävien tiedostojen integriteetin valvonta. Sekin on vielä kehittelyvaiheessa.

Metadataa itsestään ja ilmaiseksi (ALA, 3. posti)

Lauantaiaamun MARC-pläjäyksen jälkeen siirryin enemmän oman alan esitykseen, jonka piti Patrick Yott, Brown Universityn digitaalisten palveluiden päällikkö. Aiheena oli metadatan luominen automaattisesti avoimen lähdekoodin ohjelmistoja käyttäen.

No, itse asiassa voimme ylpeinä todeta, että johan tuota meillläkin tehdään suorastaan rutiininomaisesti, ja esityksessä esitellyt ohjelmistotkin olivat aikas tuttuja. Tässä ja muissakin myöhemmin blogattavissa esityksissä omatuntoa soimasi lähinnä se, kuinka paljon muualla on pantu aikaa suunnitteluun, dokumentointiin, toimintatapojen yhdenmukaistamiseen ja muuhun sellaiseen, joka ohjaa digitaalisten aineistojen hallintaa pois projektimaisuudesta ja kohti pysyvää toimintaa. Miksi meillä ollaan enemmän lastuna lainehina ja tehdään asioita sitä myöten kuin eteen osuu – ei välttämättä huonosti mutta vähän veitsi kurkulla -meiningillä -, siihen on monia syitä, joihin toivottavasti ennätän jossakin vaiheessa palata.

Ikävä kyllä ohjelmistot – ainakaan avoimen lähdekoodin ohjelmistot – eivät vielä ihan osaa sisällönkuvailua ja asasanoitusta. Esitys koskikin ennen kaikkea nk. teknisen metadatan keräämistä. Tekninen metadata on tarpeen ennen kaikkea digitaalisissa kokoelmissa, joissa aineiston käyttö ja säilyminen on suurelti kiinni siitä, että tiedämme, miten aineistoa tulee käyttää.

Luetteloijat ovat niukkuusvaranto, ja digitaalisten aineistojen tekninen luettelointi on joka tapauksessa tehtävä, joka ei ole käsin tehtävissä, sen verran isoista datamääristä on kysymys. Yott otti esimerkiksi 24-sivuiden lehden, josta jokainen sivu tallennetaan tiff-tiedostona sekä kolmena erikokoisena jpeg-tiedostona. Tuloksena on 96 tiedostoa, joista kaikista tarvitaan teknistä metadataa. Lisäksi tarvitaan rakenteellista metadataa eli tietoja siitä, miten eri tiedostot suhtautuvat toisiinsa: mitkä ovat saman sivun kuvia, ja missä järjestyksessä sivujen kuuluu olla.Tähän pitää vielä lisätä käyttöoikeuksia koskeva tieto, sekin perimmiltään tiedostokohtaista sekä kuvien esittämistä käyttöliittymässä koskeva tieto.

Eikä tässä vielä kaikki! Vielä on tarvis säilyttämisen mahdollistava metadata. Tieodostot on pystyttävä luotettavasti identifioimaan ja niissä tapahtuvat muutokset kirjaamaan.

Brown Universityssä on periaatteena, että kaikista digitaalisista objekteista on olemassa kuvailu METS-formaatissa. Lisäksi yhtenäisyyden vuoksi eri lähteistä tulevat sisällönkuvailut muunnetaan MODSiksi, vaikka METS periaatteessa sallii erilaisten sisällönkuvailujen upottamisen.

Kaikki METS-tietueen sisältämä tekninen metadata kerätään sitten automaattisesti. Yotts esitteli lähemmin kolmea avoimen lähdekoodin ohjelmistoa, joita Brownissa on käytetty.

  • mp3::info – lukee mp3-tiedostojen headereita
  • ExifTool – kerää teknistä metadataa lukuisista tiedostomuodoista
  • JHOVE – paitsi kerää metadataa, voi validoida tiedostoja erilaisiin profiileihin verraten

Muutenkin Yotts suositteli lämpimästi CPANia, josta on saatavilla suuri joukko Perl-skriptejä eri tarkoituksiin; kaksi ensin mainittua apuvälinettä on toteutettu Perlillä, JHOVE Javalla.

Isot Amerikan kirjastot ovat ennenkin tehneet aika paljon työvälineitä itse. Kun avoimen lähdekoodin projekteja poikii lisää, ne ovat siinä onnellisessa asemassa, että niillä on paljon osaavaa väkeä töissä, joka pystyy hyödyntämään lisääntyvää tarjontaa. Kansalliskirjasto lähestyy esimerkiksi pitkäaikaissäilytystä ihan toisenlaisesta tilanteesta ja toisenlaisin resurssein, mutta kyllä esim. DSpace-projekti on jo osoittanut kollektiivisen kehittämisen vahvuuksia – jos toki senkin, ettei ilmainen koodi kuitenkaan ilmaista ole. Avoin lähdekoodi ja sen mahdollisuudet pitää kyllä tarkasti ottaa huomioon, kun tehdään isoja tulevaisuuden ratkaisuja. Paras tietenkin olisi jos softatoimittajat osaisivat rakentaa houkuttelevia tarjouksia avoimen lähdekoodin varaan. Kaikkea ei tarvitsisi tehdä itse, mutta vapaus omiinkin kehitysprojekteihin olisi olemassa.

Kirjastot paremman tiedonsaannin asialla

Kirjastoverkko ja Kansalliskirjasto ovat laatineet esityksen tiedonsaannin edistämiseksi Suomessa. Opetusministeriölle luovutetun esitys parantaisi toteutuessaan suomalaisen tutkimuksen olosuhteita sekä tukisi kansalaisten tasa-arvoista tiedonsaantia varmistamalla keskeisten elektronisten tietoaineistojen saatavuus.

Esitys pohjaa Kansallisen elektronisen kirjaston (FinELib) piirissä toimineen työryhmän kartoitustyöhön. Työryhmä on rakentanut kaksi aineistokokonaisuutta: tutkimuksen perusaineistot sekä kansalaisen perustietopaketin.

Tutkimuksen perusaineistot koostuvat keskeisistä tieteellisistä verkkoaineistoista kuten lehti- ja kirjapaketeista sekä tietokannoista, jotka ovat välttämättömiä korkeatasoiselle tutkimukselle.

Ehdotettuun kansalaisen perustietopakettiin kuuluu muun muassa lakitietoa, terveystietoa, hakuteoksista sekä sanakirjoja. Aineisto olisi vapaassa kansalaiskäytössä ja edistäisi siten tiedonsaannin tasa-arvoa ja tukisi laadukkaan verkkotiedon käyttöä opetuksessa.