Näytämmekö asiakkaillemme vain takapuolemme?

Kansalliskirjastossa on kuluvan vuoden aikana valmisteltu tietohallintostrategiaa kirjaston tarjoamille keskitetyille tietoteknisille palveluille. Työn kuluessa ehkä eniten keskustelua ovat herättäneet käsitteet back-end ja front-end, joille on ollut hankala löytää selkeitä suomenkielisiä vastineita. “Takapuolen” käännökseksi muotoutui vielä suhteellisen käsitettävä termi “taustajärjestelmä”. “Etupuolen” kohdalla päädyimme toistaiseksi termiin “asiakasliittymä”, joka saattaa kuitenkin helposti sekaantua asiakassovelluksiin eli clientteihin (jotka kuuluvat sinne takapuolelle).

Terminologiaa olennaisempaa tässä yhteydessä on kuitenkin tulevaisuusskenaario, jossa nämä käsitteet ovat keskeisessä asemassa. Tämänhetkisissä järjestelmissämmehän tilanne on hyvin pitkälle se, että back-end = front-end, eli asiakkaat joutuvat käyttämään jokaista taustajärjestelmää sen omalla käyttöliittymällä. Vaikka niiden asiakasystävällisyyteen panostettaisi kuinka, käyttäjä joutuu silti opettelemaan monta erilaista liittymää. Continue reading

E-thesiksen maailmankartta

e-thesis-map-2007-09-pieni.jpg

Julkaisuarkistoja mietitään edelleen valitettavan usein pelkästään julkaisijoiden ja julkaisemisen näkökulmasta. Jotta niiden toiminta olisi perusteltavissa, aineistoille ja palveluille tarvitaan kuitenkin myös käyttäjiä, ja jotta käyttö olisi todennettavissa, tarvitaan tilastointia. Helsingin yliopiston opinnäytteitä ja sarjajulkaisuja jo syksystä 1999 lähtien julkaisseen E-thesis-palvelun käyttöä on seurattu toki aiemminkin (ks. “Ystävämme Google: E-thesiksen käyttötilastojen kertomaa“, Tietolinja 1/2006), mutta E-thesiksen julkaisujen siirto DSpace-ympäristöön helmikuussa 2007 on pakottanut miettimään uusia ratkaisuja myös tilastoinnin osalta. Continue reading

Primon pilotti

Ainakin korkeakoulujen kirjastoväen piirissä “Primo” on jo varmasti monelle tuttu. Kyseessä on eräänlainen seuraavan sukupolven Nelliportaali-tyyppisten palvelujen järjestelmä. Ohjelmiston tekijä on Nelliportaalin taustalla toimivien MetaLib- ja SFX-ohjelmistojenkin taustalta löytyvä Ex Libris.Vanderbilt University on julkistanut Primon pilottiversion osoitteessa http://alphasearch.library.vanderbilt.edu/. Continue reading

Kokemuksia eurooppalaisen väitöskirjaportaalin rakentamisesta

Joint Information Systems Committee (Iso-Britannia), Ruotsin kansalliskirjasto ja SURF Foundation (Hollanti) ovat testanneet yhteiseurooppalaista, OAI-PMH:n varaan rakennettua väitöskirjaportaalia. Portaaliin on toistaiseksi haravoitu noin 10000 väitöskirjan metatiedot yhteensä viidestä eri maasta (Hollanti, Iso-Britannia, Ruotsi, Saksa ja Tanska). Continue reading

Unesco ja avoimen lähdekoodin ohjelmistot

UNESCO on julkaissut mielenkiintoisen, vaikkakin suppeahkon selvityksen “Towards an Open Source Repository and Preservation System” avoimen lähdekoodin ohjelmistoista ja työkaluista, joita voidaan käyttää pitkäaikaissäilytykseen keskittyvän arkiston rakentamisessa. Taka-ajatuksena UNESCO:lla on luoda ohjeistus ja suositukset, jotta yksittäisten pienempien kulttuuri- ja muiden instituutioiden olisi helppoa ja kustannustehokasta säilyttää omia digitaalisia aineistojaan luotettavasti pitkällä aikavälillä. Lähtökohtana voi olla vaikka muutama tavallinen PC-mikro. Selvitys esittelee nipun avoimen lähdekoodin ohjelmistoja ja ratkaisuja ja punnitsee niiden toimivuutta. Continue reading

OhioLink (ALA, 6.posti)

Sessio: “Issues and Trends in Digital Repositories of Non-textual Information: Support for Research and Teaching”.

Thomas Dowling esitteli OhioLINKin Digital Resource Commonsia. OhioLINK on Ohion osavaltion kirjasto- ja tietopalveluverkosto – konsortio, joka monessa suhteessa muistuttaa Suomen FinELibiä ja Linnea-konsortiota. Paitsi, että kuten Amerikkaan sopii, se on ainakin joissain suhteissa isompi. Muun muassa se lataa lisensoiduista tietokannoista artikkelit paikalliseen tietokantaan, jossa niitä onkin sitten 9 miljoonaa, ynnä muutamia tuhansia e-kirjoja.

OhioLINKillä on ollut ja on monenlaisia digitaalisen aineiston järjestelmiä – OhioLINK electronic theses and dissertatioms (http://www.ohiolink.edu/etd), OhioLink Digital Media Center (http://dmc.ohiolink.edu/) jne. Niinpä mieleen onkin siellä tullut, pitäisikö kaikki digitaaliset kokoelmat siirtää yhteen järjestelnmään – joka olisi toteutettu avoimen lähdekoodin ohjelmistoilla.

Dowling oli vahvasti sitä mieltä, että vapaa lähdekoodi – ajateltakoon nyt sellaisia tapauksia kuin Apache, Lucene, Tomcat ym. – voi tarjota alansa parhaan ratkaisun. Niinpä Fedora on ollut se alusta, jolle OhioLINKissä on alettu rakentaa.

Tässä välissä sopinee huomauttaa, että DSpace ja Fedora ovat olleet ne arkistoinnin OSS-ratkaisut, jotka kerta kerran jälkeen ovat seuraamissani sessioissa tulleet esiin. Jos jotakin muuta on ollut, se on useimmiten ollut yliopiston kokonaan itsensä rakentamaa. Kaupallisia tuotteita kukaan ei ainakaan ole kehdannut ääneen mainita.

Se, mikä lisäksi kiinnitti huomiota, on se, että kaikki Fedorasta puhuneet ovat koristelleet puheensa sivuhuomautuksilla siitä, kuinka raskasta ja aikaavievää sen implementointi on ollut – jos nyt mitään valmista edes vielä on ollut esittää. Pitkällä aikavälillä ratkaisun on kuitenkin vakuutettu olevan oikea. Ehkäpä todellakin pitkällä aikavälillä Fedoran ympärille kehittyy lisäosia, joiden avulla sitä voi päästä oikeasti käyttämään, mutta se kehitys on kyllä vielä kesken. Kovasti uskoa ja lujaa luottamusta vielä tarvitaan, ynnä pivollinen koodareita, jos Fedoraa aikoo käyttää.

Fedoran lisäksi OhioLINKIssä on ollut agendalla Ohion-laajuisen DSpace-järjestelmän rakentaminen, mikä on kuitenkin viivästynyt muiden kiireellisten tehtävin takia. Haastetta ei pienennä se, että asiakkaina olisi 85 instituutiota. Tässä yhteydessä Dowling sivusi myös OAI-PMH-protokollan tiettyjä rajoituksia. Kyse ei ole niinkään itse protokollan puutteista, vaan sen oikeasta käytöstä. Jos esimerkiksi Ohiossa 85 tahoa alkaa haravoimaan toisiaan, tuloksena on kaaos. Jonkinlainen keskittäminen on siis paikallaan. OAI-hygieniaan pitänee vielä palata tässäkin blogissa!

Metadataa itsestään ja ilmaiseksi (ALA, 3. posti)

Lauantaiaamun MARC-pläjäyksen jälkeen siirryin enemmän oman alan esitykseen, jonka piti Patrick Yott, Brown Universityn digitaalisten palveluiden päällikkö. Aiheena oli metadatan luominen automaattisesti avoimen lähdekoodin ohjelmistoja käyttäen.

No, itse asiassa voimme ylpeinä todeta, että johan tuota meillläkin tehdään suorastaan rutiininomaisesti, ja esityksessä esitellyt ohjelmistotkin olivat aikas tuttuja. Tässä ja muissakin myöhemmin blogattavissa esityksissä omatuntoa soimasi lähinnä se, kuinka paljon muualla on pantu aikaa suunnitteluun, dokumentointiin, toimintatapojen yhdenmukaistamiseen ja muuhun sellaiseen, joka ohjaa digitaalisten aineistojen hallintaa pois projektimaisuudesta ja kohti pysyvää toimintaa. Miksi meillä ollaan enemmän lastuna lainehina ja tehdään asioita sitä myöten kuin eteen osuu – ei välttämättä huonosti mutta vähän veitsi kurkulla -meiningillä -, siihen on monia syitä, joihin toivottavasti ennätän jossakin vaiheessa palata.

Ikävä kyllä ohjelmistot – ainakaan avoimen lähdekoodin ohjelmistot – eivät vielä ihan osaa sisällönkuvailua ja asasanoitusta. Esitys koskikin ennen kaikkea nk. teknisen metadatan keräämistä. Tekninen metadata on tarpeen ennen kaikkea digitaalisissa kokoelmissa, joissa aineiston käyttö ja säilyminen on suurelti kiinni siitä, että tiedämme, miten aineistoa tulee käyttää.

Luetteloijat ovat niukkuusvaranto, ja digitaalisten aineistojen tekninen luettelointi on joka tapauksessa tehtävä, joka ei ole käsin tehtävissä, sen verran isoista datamääristä on kysymys. Yott otti esimerkiksi 24-sivuiden lehden, josta jokainen sivu tallennetaan tiff-tiedostona sekä kolmena erikokoisena jpeg-tiedostona. Tuloksena on 96 tiedostoa, joista kaikista tarvitaan teknistä metadataa. Lisäksi tarvitaan rakenteellista metadataa eli tietoja siitä, miten eri tiedostot suhtautuvat toisiinsa: mitkä ovat saman sivun kuvia, ja missä järjestyksessä sivujen kuuluu olla.Tähän pitää vielä lisätä käyttöoikeuksia koskeva tieto, sekin perimmiltään tiedostokohtaista sekä kuvien esittämistä käyttöliittymässä koskeva tieto.

Eikä tässä vielä kaikki! Vielä on tarvis säilyttämisen mahdollistava metadata. Tieodostot on pystyttävä luotettavasti identifioimaan ja niissä tapahtuvat muutokset kirjaamaan.

Brown Universityssä on periaatteena, että kaikista digitaalisista objekteista on olemassa kuvailu METS-formaatissa. Lisäksi yhtenäisyyden vuoksi eri lähteistä tulevat sisällönkuvailut muunnetaan MODSiksi, vaikka METS periaatteessa sallii erilaisten sisällönkuvailujen upottamisen.

Kaikki METS-tietueen sisältämä tekninen metadata kerätään sitten automaattisesti. Yotts esitteli lähemmin kolmea avoimen lähdekoodin ohjelmistoa, joita Brownissa on käytetty.

  • mp3::info – lukee mp3-tiedostojen headereita
  • ExifTool – kerää teknistä metadataa lukuisista tiedostomuodoista
  • JHOVE – paitsi kerää metadataa, voi validoida tiedostoja erilaisiin profiileihin verraten

Muutenkin Yotts suositteli lämpimästi CPANia, josta on saatavilla suuri joukko Perl-skriptejä eri tarkoituksiin; kaksi ensin mainittua apuvälinettä on toteutettu Perlillä, JHOVE Javalla.

Isot Amerikan kirjastot ovat ennenkin tehneet aika paljon työvälineitä itse. Kun avoimen lähdekoodin projekteja poikii lisää, ne ovat siinä onnellisessa asemassa, että niillä on paljon osaavaa väkeä töissä, joka pystyy hyödyntämään lisääntyvää tarjontaa. Kansalliskirjasto lähestyy esimerkiksi pitkäaikaissäilytystä ihan toisenlaisesta tilanteesta ja toisenlaisin resurssein, mutta kyllä esim. DSpace-projekti on jo osoittanut kollektiivisen kehittämisen vahvuuksia – jos toki senkin, ettei ilmainen koodi kuitenkaan ilmaista ole. Avoin lähdekoodi ja sen mahdollisuudet pitää kyllä tarkasti ottaa huomioon, kun tehdään isoja tulevaisuuden ratkaisuja. Paras tietenkin olisi jos softatoimittajat osaisivat rakentaa houkuttelevia tarjouksia avoimen lähdekoodin varaan. Kaikkea ei tarvitsisi tehdä itse, mutta vapaus omiinkin kehitysprojekteihin olisi olemassa.

Terveisiä triangelipäiviltä

Järjestyksessä kolmannet triangelipäivät järjestettiin 22.-24.5. Tampereen ammattikorkeakoulussa Tampereen seudun kirjastojen yhteisvoimin. Triangelipäivissä yhdistyvät Voyagerin ja Metalib-SFX:n käyttäjäryhmien kokoukset, ja lisänä on yleisemmin kirjastopalveluihin ja erityisesti niiden kehittämiseen, tekniikkaan ja yhteensopivuuteen liittyviä esityksiä.

Päivien ohjelma on osoitteessa http://www.uta.fi/laitokset/kirjasto/triangeli/index.htm

Päiville oli kutsuttu puhumaan Richard Wallis Talis Groupista, joka on brittiläinen kirjastojärjestelmäfirma. Esitys käsitteli Kirjasto 2.0:aa, joka nyt on kaikkien huulilla. Esityksen pääpiirteet käyvät ilmi Richardin blogista, http://blogs.talis.com/panlibus/archives/2007/
05/openness_and_sh.php

Päivistä varmaan poikii vielä lisääkin sanottavaa. Ehkäpä ensi vuonna olemme jo oppineet siihen, että blogaamme samalla kun kuuntelemme esityksiä. Ellei sitten ensi vuonna ole jo ihan uudet tekniikat.

Tässä täytyy vielä erityisesti kiittää kaikkia asianosaisia mainioista järjestelyistä!

Kirjastojen käyttämän metadatan lähteistä

OCLC:n varapresidentti Lorcan Dempsey pohtii tuoreessa blogimerkinnässään (“Four sources of metadata about things“) erilaisia aineistoja kuvailevan metadatan lähteitä, jotka hän luokittelee neljään eri ryhmään.

1.) Ammattimaisesti tuotettu metadata

Tähän kirjastojen näkökulmasta tutuimpaan ja perinteikkäimpään ryhmään kuuluvat esim. kirjastonhoitajien luettelointisääntöjen mukaan kirjastotietokantaan tuottamat kuvailutiedot.

2.) Käyttäjien ja tekijöiden tuottama metadata
Dempsey käyttää termiä “contributed metadata”, jolle en keksi tähän hätään luontevaa suomennosta. Dempsey luokittelee joka tapauksessa saman termin alle sekä aineistojen tekijöiden tuottaman metadatan että esim. LibraryThingin kaltaisten palveluiden satunnaisten käyttäjien tuottamat kuvailutiedot. Molemmat ryhmät ovat toki kirjastojen näkökulmasta pääosin ulkopuolisia, mutta tietojen luotettavuudessa voi kuitenkin olettaa olevan eroa (mihin Dempsey viittaa vain epäsuorasti)…

3.) Ohjelmallisesti tuotettu metadata
Digitaalisista aineistoista automaattisesti koottu metadata – esim. digitoiduista lehdistä automaattisesti poimitut otsikko- tai tekijätiedot.

4.) Intentionaalinen metadata
Aineistojen käyttöön ja käyttötapoihin pohjautuva tieto – esim. Amazonin asiakkaidensa käyttäytymisen (ostetut kirjat, katsotut sivut) pohjalta koostamat suositukset tai Googlen www-sivujen linkkeihin perustuva PageRank-luokitus.

Jos tätä luokittelua katsoo kansalliskirjastolaisen näkökulmasta, ainoa kokonaan vieras alue taitaa olla intentionaalinen metadata (ks. myös “Amazon on parempi kuin kirjasto” ja etenkin Minna Rouhiaisen kommentti). Vaikka käyttäjien tuottama metadata on vielä tulevaisuuden asia, tekijöiden toimittamaa metadataa käytetään jo nyt esim. E-thesis-palvelussa. Ohjelmallisesti tuotettua metadataa hyödynnetään taas esim. Mikkelin digitointikeskuksessa.

Kuten Dempsey aivan oikein toteaa, näitä erilaisista ja eritasoisista lähteistä koottuja metatietoja ei ole syytä asettaa vastakkain, vaan pikemminkin on syytä pohtia sitä, miten kuvailutietojen muodostama kokonaisuus saadaan pysymään hallinnassa ja miten niiden pohjalta pystytään rakentamaan mielekkäitä palveluita. Hyvä kysymys on myös se, millaisten aineistojen kuvailuun tarvitaan tulevaisuudessa ammattilaisten työpanosta ja mitkä kuvailutiedot on järkevämpää tuottaa jossain muualla tai jollain muulla menetelmällä.

Amazon on parempi kuin kirjasto

Kyllä on, asiakkaiden mielestä. Ainakin sikäli kuin he vertailevat Amazonin ja kirjastoluetteloiden käyttöliittymiä. Äskettäin pidetyssä 31. European Library Automation Group -kokouksessa professori Maja ŽŽumer Ljubljanan yliopistosta herätteli kirjastoväkeä miettimään, miksi ei riitä, että kirjastot “ovat verkossa” (1).

Asiakkaat kokevat kirjastoluettelot vaikeiksi käyttää. Tämä tiedetään ja on tutkimuksissa osoitettu (2, 3).

Nyt etenkin huomattu, että asiakkaat ovat alkaneet käyttää Amazonia myös kirjastojen käyttöliittymänä. He etsivät kirjan Amazonista, kopioivat sen ISBN-numeron ja tekevät sen perusteella haun kirjastoluetteloon (4).

Kirjastoammattilaisen silmin tämä näyttää aivan käsittämättömältä touhulta. Miksi asiakkaat eivät käytä hyväkseen luetteloiden hakumahdollisuuksia? Siksi, että asiakkaat eivät ole kirjastoammattilaisia. Se, mikä tiskin takana tuntuu maailman yksinkertaisimmalta rutiinilta, ei tunnu kaikista samalta.

Voidaan väittää, että kirjastojen ei pidä tyytyä jäljittelemään hakukoneita, amazoneita sun muita “liian yksinkertaisia” käyttöliittymiä, koska ne voisivat tarjota niin paljon enemmänkin. Mutta on ilmeistä, että nykyiset menetelmät sen enemmän tarjoamisessa ovat epäonnistuneita – tai ainakin vanhanaikaisia.

Voi hyvinkin olla, että kirjastoluettelon tehokkaan käytön oppiminen ei olisi kovin vaikeaa. Vaikeus ja helppous ovat kuitenkin suhteellisia. Kirjaston käyttö ei ole kovin läpikäyvä elementti useimpien ihmisten elämässä. Kirjastot eivät sen takia voi ohjata sitä, mikä ihmisistä tuntuu oikealta ja luontevalta tavalta toimia. Valtavirrasta poikkeaville hakukäytännöille käy kuin piirustuspöydän ääressä vedetyille puistokäytäville: kansa kulkee mieluummin nurmikon poikki kuin arkkitehdin suunnitelmien mukaan, olipa arkkitehdillä ratkaisulleen kuinka mainiot perustelut hyvänsä.

ŽŽumer listasi joitakin ajatuksia siitä, mitä pitäisi tehdä. Ideat eivät suinkaan ole uusia, vaan perustuvat toisaalta siihen, mitä voi oppia hakukoneilta yms., ja toisaalta ilmiöihin, jotka informaatiotutkimuksessa on tunnettu jo vuosikymmeniä.

Yksinkertainen haku. Useimmissa kirjastojärjestelmissä sellainen jo onkin, piilotettuna jonkin mystisen ilmauksen taakse, kuten Helkan “sanahaku -(katkaisu=?)”. Helmetissäkin on sanahaku, mutta se pitää ensin valita “opastetuista hauista”.

Hakutulosten relevanssi on usein kirjastojärjestelmien heikko kohta; pikemminkin perinteisesti tulos järjestetään julkaisuvuoden mukaan. Tähän pitäisi hakualgoritmien kehittelyssä kiinnittää huomiota.

Kirjankansien kuvan liittäminen kuvailutietoihin. En itse oikein sisäistä tämän merkitystä, mutta mitäpä siitä: asiakkaat arvostavat kansikuvia ja pulinat pois.

Suositukset – eli bibliometriseen kytkentään perustuvat vinkit: henkilöt, jotka ovat lainanneet tätä kirjaa, lainasivat myös tuota.

Kirja-arviot: asiakkaat pitävät toisten asiakkaiden arvioita hyödyllisinä. Yksittäisen kirjaston asiakaskunta saattaa olla liian pieni tuottamaan riittävää määrää arvioita. Voisi aprikoida, riittäisikö Suomeen yksi ainoa arviointijärjestelmä, jonka sisältö olisi tietenkin nähtävissä eri luetteloiden kautta. Helppo visioida, hieman vaikeampi toteuttaa!

(1) Amazon: competition or complement to OPACs PDF Document (abstract) / Maja ŽŽumer (University of Ljubljana). – Saatavissa: http://elag2007.upf.edu/papers.htm. – [Luettu 14.5.2007]

(2) Why Are Online Catalogs Still Hard to Use? / Christine L. Borgman. – Journal of the American Society for Information Science, 1996, 47, 7, 493. – Saatavissa (lisensoitu aineisto): http://proquest.umi.com/pqdlink? did=639283961&Fmt=2&clientId=23404&RQT=309&VName=PQD. – [Luettu 14.5.2007]

(3) Research And Design Review : Improving User Access to Library Catalog and Portal Information : Final Report (Version 3) / Marcia J. Bates. – Library of Congress Bicentennial Conference On Bibliographic Control For The New Millennium : Task Force Recommendation 2.3, 2003. – Saatavissa: http://www.loc.gov/catdir/bibcontrol/2.3BatesReport6-03.doc.pdf. – [Luettu 14.5.2007]

(4) Rethinking How We Provide Bibliographic Services for the University of California : Final Report: December 2005. – The University Of California Libraries. Bibliographic Services Task Force. – Saatavissa: http://libraries.universityofcalifornia.edu/sopag/BSTF/Final.pdf. – [Luettu 14.5.2007]

Creative Commons License