Kuka julkaisisi julkaisuarkistossa? (ALA, 5, posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

Collecting for Institutional Repositories: All the News That’s Fit to Keep. Tällä kertaa vuorossa oli kolme esitystä meillä Suomessakin ajankohtaisesta kysymyksestä: mitä julkaisuarkistoihin pitäisi panna ja miten se saadaan sinne. Vastaus: laitokset ja tutkijat tietävät parhaiten, mitä kannattaa julkaista, ja loppu onkin vain tarmokasta mainontaa, markkinointa ja hihasta nykimistä.

Esityksiä oli taas kolme: Susan Gibbons Rochesterin yliopistosta; Jim Ottaviani Michiganin yliopistosta sekä George Porter California Institute of Technologysta.

Susan Gibbons kertoi ensin pitkästä ja huolellisesta suunnittelusta, jossa toimintaperiaatteita ja prosesseja työstettiin monen työryhmän voimin. Loppujen lopuksi kuitenkin kävi niin, että suuri osa tuosta työstä ei osoittautunut kovinkaan hyödylliseksi. Monet visiot julkaisuarkiston käytöstä eivät toteutuneet, ja monia yllättäviä ksymyksiä on ilmaantunut toiminnan kehittyessä. Hän korosti, että kun kyse on uudenlaisesta toiminnasta, joustavuus on todella tarpeen.

Sisältökriteereitäkin oli pohdittu paljon, mutta parhaaksi politiikaksi oli osoittautunut antaa aineiston luovuttajien tehdä päätökset. Kenenkään intressissä ei tunnu olevan roskan julkaiseminen. Kaikeella sillä aineistolla, jota julkaisarkistoon oli pantu, oli myös ollut käyttöä, joten siinäkin suhteessa itseohjautuva sisällönvalinta on ollut onnistunut ratkaisu.

Sisältöä ei ole myöskään rajattu vain rinnakkaisjulkaisemiseen. Mukana on “student papers” – mitä kaikkea termi pitääkään sisällään – sekä myös primaariaineistoa, kuten eism. digitoitu kokoelma harvinaisia nuotteja. Sellainen periaate kuitenkin on ollut, että aloitteen aineiston lisäämiseen on tultava laitoksilta – toisin sanoen kirjasto ei omasta aloitteestaan lisää aineistoja. Tätä pn pidetty tärkeänä, jotta laitokset todella tuntisivat palvelun omakseen.

Itsearkistointi ei ole ollut niin yleistä kuin oli toivottu, ja sen edistämiseksi on vielä tehtävä työtä, Gibbons kertoi. Plajon tavallisempaa on, että arkistoinnin tekee jokin välikäsi – laitoksen hallintohenkilökunta, opiskelijatyöntekijät tai – kaikkein useimmin – kirjasto. Kirjaston iso rooli ei ole pitkällä aikavälillä kestävä ratkaisu, vaikkakin dialogista laitosten kanssa on näin lakuvaiheessa llut myös paljon hyötyä.

Arkisto on toteutettu DSpacella, kuten myös seuraavaksi esitelyt Deep Blue (ei nähtävästi sukua samannimiselle shakinpelaajalle). Rochesterin arkisto on osoitteessa https://urresearch.rochester.edu/

Rochesterissa ollaan asetettu joitakin pitkäaikaissäilytyksen sanelemia vaatimuksia luovutettavalle aineistoille, mutta ei kovin tiukkoja. Tiedostomuotojen tulee olla sellaisia, että niiden dokumentaatio on saatavissa. Näin ollen PDF kelpaa, mutta Word ei.

Tekijänoikeudet aiheuttivat alussa paljon kyselyä. Avoimessa julkaisuarkistossahan arkisto kuitenkin saa ainoastaan ei-yksinoikeudellisen levitysoikeuden, eli tekijänoikeudet eivät oikeastaan siirry. Tekijänoikeusasioissa aineiston arkistoja on autettu paljon ja kädestä pitäen. Tutkija on esimerkiksi voinut tuoda julkaisuluettelonsa kirjastoon, joka on sitten selvitellyt, mitkä nimekkeet on mahdollista panna julkaisuarkistoon.

Seuraavaksi esiintyi Jim Ottaviani ja kertoi Deep Bluesta (ks. http://deepblue.lib.umich.edu/)Myös Jim Ottaviani tähdensi julkaisuarkistojen myymistä yliopistolla, Kyseessä on loppujen lopuksi varsin uudenlainen palvelu, jossa kirjastot ovat tekemisissä tutkijoiden ja opettajien kanssa uudenlaisissa yhteyksissä.

Ottaviani vertasi laitoksia riikinkukkoihin: markkinoinnissa ei pidä kertoa, millä tavalla julkaisuarkistot tekevät maaimasta paremman paikan, vaan millä tavalla ne hyödyttävät laitosta ja tuovat sille mainetta ja kunniaa, ehkä rahaakin.

Hän käytti myös vertausta “ohjaajan versio”. Julkaisuarkistossa voidaan julkaista liikkuvaa kuvaa, jota ei lehdissä voi käyttää; ja siellä voidaan julkaista värikuvia, joiden saaminen lehteen maksaisi maltaita. Oikeastaan ainoa rajoitus, joka julkaisemiselle on asetettu, on se, että keskeneräisiä dokumentteja ei julkaista.

Michiganissa DSpacen hierarkia on hyvin litteä, tai oikeastaan sitä ei ole ollenkaan: kaikki laitokset löytyvät samalta tasolta. Paljon oli pantu painoa toimivan itsearkistointilomakkeen suunnitteluun.

Markkinoinnissa oli panostettu isoihin avajaisiin, joita varten arkistoon oli hankittu aineistoa edeltäkäsin, osin kirjoittajien tietämättä! Neljän ison kustantajan kanssa oli lisenssineuvotteluissa otettu mukaan sellainen klausuuli, että yliopistolla on oikeus siirtää tutkijoidensa artikkeleita omiin julkaisuarkistoihinsa. Tutkijat saattoivat hieman hätkähtää, mutta olivat kyllä luopuneet oikeudesta artikkeleihinsa siinä määrin, ettei heidän oikeuksiaan prosessissa loukattu.

Markkinointia oli tehty kosolti mm. seuraavilla argumenteilla:

Julkaisuarkistossa julkaiseminen lisää siteerauksen määrää 25 – 250 prosenttia.
Kirjasto huolehtii aineiston säilymisestä
Julkaisulisenssi on parin kolmen kappaleen pituinen eikä aiheuta stressiä
Itsearkistoinnissa kysytään vain kolme asiaa: nimeke, tekijä ja julkaisuaika.

Caltechin George Porterilla oli esityksessään enemmän hauskoja kaskuja kuin mitään erityistä perussanomaa. Kyse oli ennen kaikkea elektronisten opinnäytteiden julkaisemisesta Caltechissa. Se herätti huomiota, että väitöskirjan julkaisemisesta on kieltäytynyt ainoastaan kaksi henkilöä. Laitoksilla on alempien opinnäytteiden suhteen hyvin vaihtelevia käytäntöjä, ja sen kanssa on pystytty elämään.

Myös Caltechissa kirjastolla on varsin laajat tekijänoikeuspalvelut. Verkkojulkaisujen suhteen kirjasto myös omaksuu vastuun mahdollisista rikkeistä, päinvastoin kuin esim. Rochesterissa (jossa kyllä otetaan asianomaiseen yhteyttä, jos silmiin sattuu joku ilmeisen luvaton julkaisutapaus).

Kaikki totesivat yhteisesti, että pre- ja postprintit eivät ole merkittäviä arkistojen sisällössä. Niiden julkaisemiselle voisi olla enemmän tilausta ajan myötä; otettiin esimerkki lehdistä, joissa artikkelien jonotusaika on pari vuotta – luulisi preprintin julkaisemisen silloin kiinnostavan kirjoittajaa.

Jos ei ole metadataa, ei kannata digitoida (ALA, 4.posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

Digitaalisten aineistojen hallinta – säilyttämisen näkökulma. Aiheesta olivat puhumassa Janet Gertz Columbian yliopistosta; Robin Wendler Harvardin yliopistosta; sekä Joseph JaJa Marylandin yliopistosta. Metadata, metadata, metadata, siinäpä tiivistetysti näiden asiantuntijoiden sanoma – josta sanomasta kyllä hieman kiisteltiinkin.

Janet Gertzin esityksestä jäi ennen kaikkea mieleen valinnan merkitys: digitoinnin mielekkyys ja onnistuminen on digitoitavan aineiston onnistuneen valinnan varassa. Se on elintärkeää toiminnan tehokkuden kannalta; ei vain niin, että muuten digitointi on hidasta ja kallista vaan jopa niin, että tuotettu aineisto on käytännöllisesti katsoen hyödytöntä.

Valinnan ensi askel on taas kohdeyleisön määrittely, koska se ohjaa monia digitoinnin kuluessa tehtäviä päätöksiä. Hänellä oli esimerkkinä vanha geologisten valokuvien kokoelma. Niitä voidaan käsitellä aineistona, jolla on merkitystä geologeille; mutta toisaalta kuvissa näkyy paljon sellaista, jolla on historiallista ja kulttuurista merkitystä geologian ulkopuolella. Pidetäänkö kohdeyleisönä esim. suurta yleisöä, jolle kuvilla on paikallishistoriallista arvoa?

Edelleen valinnassa on otettava huomioon aineiston laatu ja kunto. Tyypillinen esimerkki ongelmallisesta aineistosta siinä suhteessa ovat suttuiset sinikopiot ja sen sellaiset. Jos sisällöstä ei saa selvää, miksi digitoida?

Monia muitakin aspekteja on, esim. kriittinen massa vs ainutkertaisuus. Kannatttaako digitoida halpaa paperista pyhimyksenkuvaa? Ei, mutta laaja kokoelma halpoja paperisia pyhimyksenkuvia onkin tutkimuksen kannalta merkittävä ja siksi digitointi kannattaa. Toisaalta jokin uniikki kirja tms. kannattaa digitoida yksittäisenäkin.

Ja sitten se metadata. Metadataa ei koskaan voi olla liikaa! Gertz tähdensi. Jos aineisto ei ole hyvässä järjestyksessä ja kunnollisesti kuvailtu, älä edes uneksu digitoivasi sitä!

Tästä sitten vähän keskusteltiinkin. Gertzillä oli varoittavana esimerkkinä kokoelma luonnospiirustuksia, joista ei ollut kunnon metadataa. Yleisöstä kysyttiin, mitä mielekästä metadataa niistä voisi olla, keskenään samannäköisistä saman aiheen luonnoksista. Mikään sanallinen kuvailu ei olisi hyödyllinen, vaan käyttö perustuisi kuitenkin kuvien katseluun. Ongelma ei siis kenties ollut metadatan puute vaan esikatselukuvien puute. No, Gertzhän oli tähdentänyt myös aineiston järjestystä, mikä taas tässä tapauksessa oli elintärkeää. Jos aineistoja kuvaillaan vain kokoelmatasolla, kokoelmien pitää olla järkeviä (tai noudattaa fyysisen aineiston säilytystapaa). Ja edelleen: sitä merkittävämpää on kokoelmatason kunnollinen luettelointi

Digitaalisella objektilla tulee siis olla konteksti, ja metadata tarjoaa sen kontekstin. Saapuipa käyttäjä tarkastelemaan objektia mitä kautta tahansa, sen pitäisi esiintyä kontekstissaan; tämä asettaa sitten tiettyjä vaarimuksia esim. käyttöliittymälle.

Robin Wendlerin esitys heijasteli samaa ajattelutapaa. Hän korosti metadatan oikea-aikaista keruuta: osa metadatasta on sellaista, että se on välttämätöntä kirjata tietyssä prosessin vaiheessa, tai se menetetään kokonaan. Tällaista on esim. digitoinnissa käytettyjä asetuksia koskeva tieto. Toinen seikka, jota Wendler korosti – ja jossa kuulema usein laistetaan – on digitoinnin laadunvarmistus. Huonona esimerkkinä oli Google, joka ei kai yritäkään valvoa laatua, ja esimerkkejä sotkuista onkin sen digitoimissa kirjoissa helppo löytää.Niiden korjaaminen olisikin sitten aikamoinen haaste.

Joseph JaJa esitteli ADAPT-hanketta (An Approach to Digital Arciving and Preservation Technology) ja ACEa (Auditing Control Environment).

ADAPT on monikerroksinen digitaalisten aineistojen hallinnan arkkitehtuurikonsepti, jonka ympärille on keitetty myös avoimen lähdekoodin työkaluja. Siitä on pyritty rakentamaan sellainen, että se sopeutuu hyvin erilaisiin toimintaympäristön muutoksiin. Hanke on vielä kokeiluvaiheessa, ja kehitetyt työkalut ovat vielä hieman tiskin alla. (Tätä kirjottaessani hankkeen demotkaan eivät oikein tunnu toimivan.)

ACEn tarkoitus on automatisoida säilytettävien tiedostojen integriteetin valvonta. Sekin on vielä kehittelyvaiheessa.

Metadataa itsestään ja ilmaiseksi (ALA, 3. posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

Lauantaiaamun MARC-pläjäyksen jälkeen siirryin enemmän oman alan esitykseen, jonka piti Patrick Yott, Brown Universityn digitaalisten palveluiden päällikkö. Aiheena oli metadatan luominen automaattisesti avoimen lähdekoodin ohjelmistoja käyttäen.

No, itse asiassa voimme ylpeinä todeta, että johan tuota meillläkin tehdään suorastaan rutiininomaisesti, ja esityksessä esitellyt ohjelmistotkin olivat aikas tuttuja. Tässä ja muissakin myöhemmin blogattavissa esityksissä omatuntoa soimasi lähinnä se, kuinka paljon muualla on pantu aikaa suunnitteluun, dokumentointiin, toimintatapojen yhdenmukaistamiseen ja muuhun sellaiseen, joka ohjaa digitaalisten aineistojen hallintaa pois projektimaisuudesta ja kohti pysyvää toimintaa. Miksi meillä ollaan enemmän lastuna lainehina ja tehdään asioita sitä myöten kuin eteen osuu – ei välttämättä huonosti mutta vähän veitsi kurkulla -meiningillä -, siihen on monia syitä, joihin toivottavasti ennätän jossakin vaiheessa palata.

Ikävä kyllä ohjelmistot – ainakaan avoimen lähdekoodin ohjelmistot – eivät vielä ihan osaa sisällönkuvailua ja asasanoitusta. Esitys koskikin ennen kaikkea nk. teknisen metadatan keräämistä. Tekninen metadata on tarpeen ennen kaikkea digitaalisissa kokoelmissa, joissa aineiston käyttö ja säilyminen on suurelti kiinni siitä, että tiedämme, miten aineistoa tulee käyttää.

Luetteloijat ovat niukkuusvaranto, ja digitaalisten aineistojen tekninen luettelointi on joka tapauksessa tehtävä, joka ei ole käsin tehtävissä, sen verran isoista datamääristä on kysymys. Yott otti esimerkiksi 24-sivuiden lehden, josta jokainen sivu tallennetaan tiff-tiedostona sekä kolmena erikokoisena jpeg-tiedostona. Tuloksena on 96 tiedostoa, joista kaikista tarvitaan teknistä metadataa. Lisäksi tarvitaan rakenteellista metadataa eli tietoja siitä, miten eri tiedostot suhtautuvat toisiinsa: mitkä ovat saman sivun kuvia, ja missä järjestyksessä sivujen kuuluu olla.Tähän pitää vielä lisätä käyttöoikeuksia koskeva tieto, sekin perimmiltään tiedostokohtaista sekä kuvien esittämistä käyttöliittymässä koskeva tieto.

Eikä tässä vielä kaikki! Vielä on tarvis säilyttämisen mahdollistava metadata. Tieodostot on pystyttävä luotettavasti identifioimaan ja niissä tapahtuvat muutokset kirjaamaan.

Brown Universityssä on periaatteena, että kaikista digitaalisista objekteista on olemassa kuvailu METS-formaatissa. Lisäksi yhtenäisyyden vuoksi eri lähteistä tulevat sisällönkuvailut muunnetaan MODSiksi, vaikka METS periaatteessa sallii erilaisten sisällönkuvailujen upottamisen.

Kaikki METS-tietueen sisältämä tekninen metadata kerätään sitten automaattisesti. Yotts esitteli lähemmin kolmea avoimen lähdekoodin ohjelmistoa, joita Brownissa on käytetty.

mp3::info – lukee mp3-tiedostojen headereita
ExifTool – kerää teknistä metadataa lukuisista tiedostomuodoista
JHOVE – paitsi kerää metadataa, voi validoida tiedostoja erilaisiin profiileihin verraten

Muutenkin Yotts suositteli lämpimästi CPANia, josta on saatavilla suuri joukko Perl-skriptejä eri tarkoituksiin; kaksi ensin mainittua apuvälinettä on toteutettu Perlillä, JHOVE Javalla.

Isot Amerikan kirjastot ovat ennenkin tehneet aika paljon työvälineitä itse. Kun avoimen lähdekoodin projekteja poikii lisää, ne ovat siinä onnellisessa asemassa, että niillä on paljon osaavaa väkeä töissä, joka pystyy hyödyntämään lisääntyvää tarjontaa. Kansalliskirjasto lähestyy esimerkiksi pitkäaikaissäilytystä ihan toisenlaisesta tilanteesta ja toisenlaisin resurssein, mutta kyllä esim. DSpace-projekti on jo osoittanut kollektiivisen kehittämisen vahvuuksia – jos toki senkin, ettei ilmainen koodi kuitenkaan ilmaista ole. Avoin lähdekoodi ja sen mahdollisuudet pitää kyllä tarkasti ottaa huomioon, kun tehdään isoja tulevaisuuden ratkaisuja. Paras tietenkin olisi jos softatoimittajat osaisivat rakentaa houkuttelevia tarjouksia avoimen lähdekoodin varaan. Kaikkea ei tarvitsisi tehdä itse, mutta vapaus omiinkin kehitysprojekteihin olisi olemassa.

Marc, hän elää! (ALA, 2. posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

56 miljoonan tietueen pyörittelyn jälkeen esiintyi Sally McCallum, joka on Kongressin kirjaston MARC-toimiston päällikkö eli MARCin ylimmäinen papitar. Hänen tulevaisuudenvisioissan MARC tarkoitti lähinnä MARCin dataelementtejä. Kun niistä säilyy yhteisymmärrys, voi niiden käyttö erilaisissa toiminnallisissa ja teknisissä ympäristöissä laajentua ja rikastua. XML esiintyi esityksessä monen monta kertaa avaimena tuohon laajentumiseen ja rikastumiseen.

Esityksen kalvot ovat nähtävissä osoitteessa http://www.mcdu.unt.edu/wp-content/
ALA2007McCallumMARCFutures.pdf

Callum jakoi esityksensä yhdeksään osa-alueeseen, joissa hän tarasteli MARCin tilaa eri näkökulmista: (1) MARC ja XML; (2) hienojakoisuus; (3) monikäyttöisyys; (4) laajennettavuus; (5) hierarkioiden tuki; (6) käännettävyys; (7) työkalut; (8) hallintayhteistyö; ja (9) pysyvyys.

Myös McCallum viittasi Los Alamosin johtopäätöksiin MARCista ylätason yhdistävänä, tuottajaneutraalina formaattina. Mutta Los Alamosin valinta oli siis MARCXML, jossa MARCin kentät ja muut ominaisuudet esitetään XML-syntaksissa. MARCXML:n rinnalla on käytettävissä myös MODS (Metadata Object Description Schema), jossa käytetään vain osaa MARCin kentistä ja jossa kentillä on hieman kuvaamammat nimet kuin MARCin numerot.

McCallum piti XML:ää luonnollisesti hyvänä tapana ilmaista MARCin dataelementtejä; XML-maailmaan tosin luultavasti yleistyy jonkinlainen laihdutettu versio MARCXML:stä. Hän muistutti, että XML:kin on joka tapauksessa vain tämän hetken yleiskieli.

MARCin hienojakoisuudesta – ne 2 000 kenttää – McCallum totesi, että hallinnolle ja rahakirstunvartijoille voi joskus olla hieman hankala selittää, mihin kaikkea tätä hienostusta tarvitaan. Hienostus kun tarkoittaa sitä, että jäsentäminen on työlästä.

Koodatulla datalla on omat hyvät puolensa – varsinkin se, että se toimii yli kielirajojen – mutta toisaalta se vaatii taas ominaisuuksia järjestelmiltä, joissa MARCia käytetään hyväksi.

Systeemin keventäminen on kuitenkin hyvin vaikeaa MARCin laajan käyttäjäkunnan takia. Kerran käyttöön otetun kentän poistaminen aiheuttaa hankaluuksia, ja konsensuksen saavuttaminen toimenpiteistä on aika lailla mahdotonta.

Monikäyttöisyyden suhteen puhuja korosti MARCin riippumattomuutta kuvailusäännöistä sekä sitä, että sallii sekä yksinkertaisen että hyvin monimutkaisen käytön. Tulevaisuudessa saatetaan nähdä enemmän sovellusprofiileja – itse asiassa MODSkin on vain eräs sovellusprofiili. Kenties tarvitaan esim. FRBR:n “teosta” varten oma profiili? Edellisiin puhujiin vittasi ajatus profiilien luomisesta tilastollisen datan avustuksella.

Marcin sopeutuvuudesta McCallum otti esimerkiksi UNIMARCIN ja erilaisten URIen luetteloinnin mahdollisuuden. Sen sijaan ei liene järkevää yrittää mahduttaa kaikkia digitaalisen aineiston edellyttämiä, ylläpidon ja käytön mahdollistavia kuvailutietoja MARCiin vaan järjestää linkitys MARCista muihin tarpeellisiin tietueisiin (PREMIS, METS, yms.)

Uudenlaisia käyttötapoja MARCille näyttäisi olevan muodostumassa esim.museoiden ja muiden kulttuurilaitosten piirissä.

Uudenlaiset hierarkian muodot lienevät tarpeellisia. MARCXML:ssä on jo lisätty käsite “collection”, joka tarkoittaa useamman tietueen sisältävää

Käännettävyydestä puhuessaan McCallum esitteli olemassa olevia työkaluja, mutta totesi, että niiden tarjonnassa alkavat rajat tulla vastaan. Konversiotaulut eivät ole kertakeikkoja, vaan niiden ylläpitoon menee joltisestikin resursseja. Tähän liittyen hän listasi myös olemassa olevia työkaluja – mm. “USEMARCON from Europe” – ja uskoi, että jatkossa käytettävissä on runsaasti avointa lähdekoodia varsinkin XML-muotoisen MARCin käsittelyyn.

MARCin kehittämisessä on mukana monta kokkia – kansalliskirjastoja ja liuta erilaisia komiteoita – mikä luo omat haasteensa. Toisaalta se heijastelee sitä, että MARC on maailmanlaajuisesti käytetty, ja MARC-tietueita on maailmassa ainakin miljardi. MARCilla on siis uskottavuutta formaattina, joka on ja ennen kaikkea pysyy. Mutta MARCinkin pitää juosta pysyäkseen paikallaan, ja XML on tällä hetkellä se, jonka mukaan MARCin on ojentauduttava; ja sitä kautta onkin tarjolla uudelaista joustavuutta ja sovellusmahdollisuuksia.

Minne menet, Marc? – osa 1 (ALA, 1. posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

Tässä ja seuraavissa postauksissa kerron vaikutelmista American Library Associationin (ALA) vuositaisessa suurkonferenssissa. – Lauantaiaamu alkoi reippaasti kello 8 aiheella, jonka kanssa en ole ihan sinut: MARC. Mutta kun metadata-asiat kuitenkin ovat lähellä sydäntä ja osa jokapäiväistä työtä, niin lyöttäydyin kuuntelemaan esitystä MARCin tulevaisuudesta. Tästä on toivottavasti ainakin se hyöty, että kun kirjoitan läpiä päähäni, asiantuntijat voivat innostua kommentoimaan. Näin syntyy siunauksellista sosiaalista vuorovaikutusta kirjasto 2.0:n hengessä.

Mikä se MARC on? Jos ken ei tiedä, niin luekoon täältä: http://www.lib.helsinki.fi/kirjastoala/formaatti/yleista.htm (Jatkossa tulee vielä lisää ammattijargonia, jota kaikkea en voi tässä käydä selittämään.)

Päinvastoin kuin monet tietotekniikan päivänperhot, MARC on ollut olemassa jo jonkin aikaa, nimittäin vuodesta 1966. Se on maailmanlaajuisessa käytössä, ja monissa maissa se muodostaa koko kirjastotoiminnan selkärangan. Formaattia 20 vuotta nuorempia nörttejä jotkut sen antiikkiset pirteet saattavat hätkähdyttää, mutta toimeen on tultu ja nähtävästi tullaan vielä pitkään.

MARC-esityksen ensimmäinen osa esitteli tutkimustuloksia siitä, miten MARCia todella käytetään luetteloinnissa. Esityksen aloitti William Moen, joka, samoin kuin esitystä jatkanut Shawne Miksakin, työskentelee Pohjois-Texasin yliopistossa.

Jos amatöörin sekava selostus alla hermostuttaa, niin esityksen kalvot ovat saatavilla (http://www.mcdu.unt.edu/wp-content/ALA2007Moen22June2007.pdf) samoin kuin oheismoniste, jossa on kovia numeroita pureksittavaksi (http://www.mcdu.unt.edu/wp-content/
ALA2007ProgramHandout22June2007.pdf).

Miksi sitä tutkitaan? MARC on kestänyt aikaa hyvin, mutta digitaalisen informaatioympäristön vallankumous on kuitenkin vaikuttanut myös MARCin asemaan ja tulevaisuudennäkymiin. Sen “markkinaosuus” on pienenemään päin. Ensinnäkään kirjastoissa ei selvitä enää pelkän MARCin varassa, kun tarvitaan uusia metadatan lajeja – teknistä, hallinnollista jne. Myös varsinaisessa bibliografisessa kuvailussa on vaihtoehtoja (Dublin Core yms.) Toiseksi kirjastojen rooli informaatiomarkkinoilla ei ole enää yhtä määräävä kuin ennen. Ennen kaikkea kirjastoluettelot eivät ole enää se akseli, jonka ympärille kaikki tiedonhakutehtävät kiertyvät. Yhteensopivuuden, muunneltavuuden ja uudelleenkäyttämisen vaatimusien kannalta MARC ei ole kaikkein helpoin tapaus. Tämä kehitys herättää kysymyksiä nykyisten luettelointikäytäntöjen kustannustehokkuudesta.

Toisaalta tutkimuksella voidaan nimenomaan tehostaa MARCin hyväksikäyttöä. Hyvä esimerkki on funktionaalinen luettelointi, FRBR (ks. http://www.lib.helsinki.fi/tietolinja/0205/frbr_franar.html) Olemassolevan MARC-datan tuntemus on tarpeen, jotta datan “kääntäminen” FRBR-malliin onnistuu mahdollisimman hyvin. Samalla nähdään myös, mihin suuntaan luettelointikäytäntöjä olisi kehitettävä, jotta ne tukisivat myös funktionaalista luettelointia.

MARC on tavattoman rikas, toisin sanoen monimutkainen formaatti. Siinä on noin 2 000 kenttää (jolla tarkoitan mtös alakenttiä). Kunnianarvoisa perinne on ollut lisätä kenttää kentän päälle: vuonna 1972 kenttiä oli vielä vain 278.

Rikkaus on monimutkaisuutta, mutta monimutkaisuus voi olla rikkautta. Los Alamos National Laboratory totesi taannoin, että MARC on ehdottomasti paras vaihtoehto yhteiseksi formaatiksi mammuttimaisessa projektissa, jossa piti yhtenäistää noin 100 miljoonaa eri tahoilta kerättyä kuvailutietuetta – tosin valituksi tuli MARCXML, fromaatin esitystavaltaan modernisoitu versio (ks.http://www.dlib.org/dlib/september06/
goldsmith/09goldsmith.html)

Aiemmassa tutkimuksessa on havaittu, että 4% kaikista kentistä sisälsi 80% kaikista kirjauksista. Nyt otettiin tutkittavaksi OCLC:lta saadut 56 miljoonaa tietuetta. Näistä 15% eli 8 miljoonaa oli Kongressin kirjaston tuottamia, ja niitä tutkittiin osittain omana ryhmänään.

Kongressin kirjaston tietueissa 80% kirjauksista esiintyi 14:ssä eniten käytetyssä kentässä (8,3%); 90% kirjauksista esiintyi 21:ssä eniten käytetyssä kentässä. Kaksi kolmasosaa kentistä on sellaisia, että niissä on kirjauksia alle prosentissa tietueista.

Tietueita oli siis 8 miljoonaa; eniten käytetty kenttä on 650 (asiasana), jossa on aineistossa lähes 12 000 000 kirjausta yli 5 miljoonassa tietueessa. Yhden ainokaisen kerran Kongressin kirjasto on käyttänyt kenttää 656 (ammatti, jota aineisto käsittelee).

Allekirjoittaneen puutteet niin MARCin kuin FRBR:nkin sisällisessä tuntemuksessa alkoivat vaivata siinä vaiheessa, kun Shawne Miksa esitteli tutkimuksen merkitystä FRBR:n kannalta. Tietueita oli tarkasteltu neljän tiedonhakutoiminnon kannalta – haku, tunnistus, valinta ja nouto (find, identify, select, obtain). Kunkin osa-alueen kannalta oleelliset kentät tunnistettiin aiempiin analyyseihin tukeutuen. Tämän lisäksi tarkasteltiin sitä, mitkä kentät kuuluivat 80/20-kynnyksen ylittäviin kenttiin eli niihin, joissa esiintyi 80% kaikista kirjauksista. Tunnistamista tukee 82 kynnyksen ylittävää kenttää, hakua 61, noutoa 37 ja valintaa 29.

Hienoinen antikliimaksi oli sitten tulosten tulkinta; niitä ei tulkittu. Pikemminkin yleisöltä pyydettiin tulkintoja ja ehdotuksia siitä, mitä jatkossa pitäisi tarkastella. Maallikosta tuntui, että yksi tulkinta on se, että MARCissa on kovasti paljon ilmaa, kun mitättömän vähän käytettyjä kenttiä on niin viljalti. Mutta kuten saatoin ounastella, keskustelussa korostettiin, että kaikki ovat erilaisia mutta yhdenvertaisia ja että jokin vähän käytetty kenttä voi olla tosi tärkeä jonkin kirpunkokoisen kirjaston toiminnassa, joten siitä ei voi mitenkään luopua.

Aika vihjailevasti Miksa kyllä kysyi, pystyvätkö kuulijat perustelemaan nykyisiä MARC-käytäntöjään kustannustehokkuuden kannalta. Vaihtoehtona hän esitti “arvokasta, tehokasta, laadukasta dataa harvoissa kentissä”.

Sen konkreettisen seikan datan analyysi kyllä paljasti, että sovellusohjeet ja jokapäiväinen luettelointi eivät aina oikein kohtaa. Tutkimuksessa oli näet tarkasteltu Core Records Standards -ohjeiden ja kenttien todellisen käytön yhteyttä ja havaittu selkeitä viitteitä siitä, että käytännössä ohjeista poiketaan säännöllisesti. En osaa sanoa, tuliko tämä kenellekään yllätyksenä tai luuraako Suomessa kenties vastaavia ongelmia – jos kyseessä nyt edes on mikään ongelma.

Kun isoisoisä rammarin osti – ja lisenssin

Posted on 19.6.2007 by Esa-Pekka Keskitalo

Muudan Damon Burke esittelee noin vuonna 1909 valmistettua gramofonilevyä, johon on liitetty lisenssisopimus. Yhden dollarin hinnalla ei suinkaan ostettu äänilevyä vaan lisenssi, joka oikeutti sen soittamiseen. Nykyrahassa lisenssi maksoi 22 dollaria, nimittäin yhdestä kappaleesta (Bach/Gounod: Ave Maria).

http://www.natch.net/stuff/78_license/

Lisenssi tietenkin raukesi – eli levy kului käyttökelvottomaksi – sitä nopeammin mitä enemmän lisensoitua musiikkia kuunneltiin. Varmuus- sen enempää kuin piraattikopioitakaan isoisoisä ei juuri voinut tehdä, ellei sattunut omistamaan levytysstudiota.

DRM-viikareiden parissa vuotta 1909 nähtävästi muistellaan haikeudella – silloin oli asiat vielä niin kuin pitikin!

Abstrakteista on konkreettista hyötyä

Posted on 15.6.2007 by Esa-Pekka Keskitalo

The Journal of Academic Librarianship -lehden kesäkuun numerossa selostetaan tutkimusta tiivistelmien merkityksestä tiedonhaussa¹. Tutkimuksessa on tarkasteltu muutaman tiedonhakujärjestelmän lokitetoja (Science Direct, OhioLink, Nucleic Acids Research). Näissä ympäristöissä on myös kokoteksti saatavissa. Lokitietojen analyysi ja tutkittujen vastaukset kyselyyn tukivat oletusta, että tiivistelmät ovat hyvin suosittuja ja niillä on oleellinen rooli tieteellisessä tiedonhaussa.

Kirjoittajat kuvaavat tutkijan tiedonhakua pikemminkin horisontaaliseksi kuin vertikaaliseksi: yhden tiedonhakuympäristön käyttöön syvennytä pitkäksi aikaa, vaan mieluummmin käytetään aika “piipahtamalla” pintapuolisesti useammassa ympäristössä. Tällaista tiedonhakutapaa tiivistelmät tietenkin tukevat mainiosti.

Tiivistelmään tyytyivät herkimmin yhteiskuntatieteilijät, fyysikot ja tietojenkäsittelytieteilijät. Useimmiten kokotekstiin taas jatkoivat kemistit sekä insinööri- ja biotieteilijät. Mitä iäkkäämpi asiakas on, sitä useammin hän luottaa tiivistelmiin. Tämä johtuu kenties tottumuksesta, kenties kokemuksen tuomasta varmuudesta aineistojen nopeassa arvioinnissa, kenties siitä että he ovat edenneet tehtäviin, joissa ajankäyttö ja tiedontarpeet ovat erilaisia.

“Horisontaalinen tiedonhaku” on, luulemma, niitä ilmiöitä, joita voi joltakin näkökannalta paheksua, mutta joiden kanssa pitää elää. Tämäkin tutkimus tukee ajatusta, että myös tieteellisissä tiedonhakuympäristöissä tulisi tarjota helppoja hakuja ja nopeita tuloksia. Ja tiivistelmät ovat siis olennainen osa hyvää palvelua.

¹David Nicholas, Paul Huntington and Hamid R. Jamali: The Use, Users, and Role of Abstracts in the Digital Scholarly Environment. The Journal of Academic Librarianship, Volume 33, Issue 4, July 2007, 446-453.
<http://dx.doi.org/10.1016/j.acalib.2007.03.004>

Kaikki metadata mulle heti

Posted on 8.6.2007 by Esa-Pekka Keskitalo

Jonathan Rochkind kirjoitti taannoin Library Journalissa ((Meta)search like Google”. 2/15/2007. http://www.libraryjournal.com/article/CA6413442.html) melko provokatiivisesti siitä, että monihaku punnittiin ja köykäiseksi havaittiin jo iloisella 90-luvulla. Monihakuhan tarkoittaa sitä, että asiakas tekee yhdestä käyttöliittymästä haun, mutta taustalla otetaan yhteys useisiin etätietokantoihin enemmän tai vähemmän standardeja rajapintoja (Z30.50, SRU) käyttäen. Eri kannoista saadut tulokset sitten esitetään asiakkaalle kerralla ja yhtenäistetyssä muodossa.

Köykäinen tahi ei, monihaku on loistava parannus verrattuna siihen, että asiakkaan pitäisi uskollisesti tehdä sama haku tietokantaan toisensa jälkeen. Siihen verrattuna monihaku on tietenkin salamannopeaa – muistelematta nyt laisinkaan aikaa ennen WWW:iä. Mutta osaavatko asiakkaat olla tästä kiitollisia, vai vertaavatko, pannahiset, monihaun suhteellista hitautta eräiden toisten hakujen suhteelliseen nopeuteen?

Vaihtoehtokin on olemassa: paikalliset indeksit. OAI-PMH-protokollan (http://www.openarchives.org/pmh/) kehittäminen on ollut tietoinen askel tähän suuntaan, pois monihausta. OAI-PMH määrittelee tavan, jolla tietokannasta voidaan käydä kopioimassa metadataa. Metadata voidaan asettaa haettavaksi jossakin aivan muualla. Metadataa voidaan hakea useista eri paikoista ja yhdistellä uudenlaisiksi kokonaisuuksiksi paikallisten tarpeiden mukaan. Mutta metadata voidaan tietysti saada omaan haltuun myös muilla järjestelyillä.

Jos metadata olisi oikeasti kirjaston hallussa, sille voisi tehdä temppuja, jotka parantavat asiakaspalvelua. Esimerkiksi isot lehtipaketit voitaisiin hajottaa ja yhdistellä uudestaan niin, että alakohtaiset haut kohdistuisivat täsmällisesti juuri sen alan lehtiin. Muutenkin eri asiakaskunnille olisi helpompaa räätälöidä palveluja.

Kirjastojärjestelmätoimittajat ovat jo ottamassa askeleita paikallisen indeksoinnin suuntaan. Asiaa lähestytään varovasti siten, että päähuomio on “omien” tietokantojen indeksoinnissa. Portaali ei enää teksi Z39.50-hakua kirjastoluetteloon, vaan luettelo olisi indeksoitu ja haut kohdistuisivat siihen. Saman tien indeksiin voisi lisätä pari naapurikirjastoa tai muuta resurssia – ja “yhteisluettelo” olisi valmis.

Tästä on “vain” tekninen, taloudellinen ja poliittinen askel siihen, että kaikki kirjaston omistamat ja lisensoimat aineistot olisivat haettavissa omista indekseistä. Tekniikassa on lähinnä kyse sen skaalautumisesta vaadittaviin mittoihin. Itse asiassa monet kustantajat kyllä mahdollistavat jo metadatansa kopioimisen – muutenhan Google Scholar (http://scholar.google.com/) ei laisinkaan toimisi. Se, saavatko kirjastot kopiointimahdollisuuden käyttöönsä vaiko vain Google, on sitten korkeampaa politiikkaa. Liiketoiminnan malleissa riittänee hieromista puolin ja toisin; kenties tällä saralla olisi tilaa aivan uudenlaisille palveluntarjoajille.

Vaikka varmaankaan paikalliset indeksit eivät korvaa etähakuja tänä eivätkä ensi vuonna, kannattaa varmaan henkisesti valmistautua tämmöiseen paradigman muutokseen – elleivät viisaat insinöörit keksi sitä ennen jotakin ihan muuta.

Terveisiä triangelipäiviltä

Posted on 28.5.2007 by Esa-Pekka Keskitalo

Järjestyksessä kolmannet triangelipäivät järjestettiin 22.-24.5. Tampereen ammattikorkeakoulussa Tampereen seudun kirjastojen yhteisvoimin. Triangelipäivissä yhdistyvät Voyagerin ja Metalib-SFX:n käyttäjäryhmien kokoukset, ja lisänä on yleisemmin kirjastopalveluihin ja erityisesti niiden kehittämiseen, tekniikkaan ja yhteensopivuuteen liittyviä esityksiä.

Päivien ohjelma on osoitteessa http://www.uta.fi/laitokset/kirjasto/triangeli/index.htm

Päiville oli kutsuttu puhumaan Richard Wallis Talis Groupista, joka on brittiläinen kirjastojärjestelmäfirma. Esitys käsitteli Kirjasto 2.0:aa, joka nyt on kaikkien huulilla. Esityksen pääpiirteet käyvät ilmi Richardin blogista, http://blogs.talis.com/panlibus/archives/2007/
05/openness_and_sh.php

Päivistä varmaan poikii vielä lisääkin sanottavaa. Ehkäpä ensi vuonna olemme jo oppineet siihen, että blogaamme samalla kun kuuntelemme esityksiä. Ellei sitten ensi vuonna ole jo ihan uudet tekniikat.

Tässä täytyy vielä erityisesti kiittää kaikkia asianosaisia mainioista järjestelyistä!

Amazon on parempi kuin kirjasto

Posted on 14.5.2007 by Esa-Pekka Keskitalo

Kyllä on, asiakkaiden mielestä. Ainakin sikäli kuin he vertailevat Amazonin ja kirjastoluetteloiden käyttöliittymiä. Äskettäin pidetyssä 31. European Library Automation Group -kokouksessa professori Maja Žumer Ljubljanan yliopistosta herätteli kirjastoväkeä miettimään, miksi ei riitä, että kirjastot “ovat verkossa” (1).

Asiakkaat kokevat kirjastoluettelot vaikeiksi käyttää. Tämä tiedetään ja on tutkimuksissa osoitettu (2, 3).

Nyt etenkin huomattu, että asiakkaat ovat alkaneet käyttää Amazonia myös kirjastojen käyttöliittymänä. He etsivät kirjan Amazonista, kopioivat sen ISBN-numeron ja tekevät sen perusteella haun kirjastoluetteloon (4).

Kirjastoammattilaisen silmin tämä näyttää aivan käsittämättömältä touhulta. Miksi asiakkaat eivät käytä hyväkseen luetteloiden hakumahdollisuuksia? Siksi, että asiakkaat eivät ole kirjastoammattilaisia. Se, mikä tiskin takana tuntuu maailman yksinkertaisimmalta rutiinilta, ei tunnu kaikista samalta.

Voidaan väittää, että kirjastojen ei pidä tyytyä jäljittelemään hakukoneita, amazoneita sun muita “liian yksinkertaisia” käyttöliittymiä, koska ne voisivat tarjota niin paljon enemmänkin. Mutta on ilmeistä, että nykyiset menetelmät sen enemmän tarjoamisessa ovat epäonnistuneita – tai ainakin vanhanaikaisia.

Voi hyvinkin olla, että kirjastoluettelon tehokkaan käytön oppiminen ei olisi kovin vaikeaa. Vaikeus ja helppous ovat kuitenkin suhteellisia. Kirjaston käyttö ei ole kovin läpikäyvä elementti useimpien ihmisten elämässä. Kirjastot eivät sen takia voi ohjata sitä, mikä ihmisistä tuntuu oikealta ja luontevalta tavalta toimia. Valtavirrasta poikkeaville hakukäytännöille käy kuin piirustuspöydän ääressä vedetyille puistokäytäville: kansa kulkee mieluummin nurmikon poikki kuin arkkitehdin suunnitelmien mukaan, olipa arkkitehdillä ratkaisulleen kuinka mainiot perustelut hyvänsä.

Žumer listasi joitakin ajatuksia siitä, mitä pitäisi tehdä. Ideat eivät suinkaan ole uusia, vaan perustuvat toisaalta siihen, mitä voi oppia hakukoneilta yms., ja toisaalta ilmiöihin, jotka informaatiotutkimuksessa on tunnettu jo vuosikymmeniä.

Yksinkertainen haku. Useimmissa kirjastojärjestelmissä sellainen jo onkin, piilotettuna jonkin mystisen ilmauksen taakse, kuten Helkan “sanahaku -(katkaisu=?)”. Helmetissäkin on sanahaku, mutta se pitää ensin valita “opastetuista hauista”.

Hakutulosten relevanssi on usein kirjastojärjestelmien heikko kohta; pikemminkin perinteisesti tulos järjestetään julkaisuvuoden mukaan. Tähän pitäisi hakualgoritmien kehittelyssä kiinnittää huomiota.

Kirjankansien kuvan liittäminen kuvailutietoihin. En itse oikein sisäistä tämän merkitystä, mutta mitäpä siitä: asiakkaat arvostavat kansikuvia ja pulinat pois.

Suositukset – eli bibliometriseen kytkentään perustuvat vinkit: henkilöt, jotka ovat lainanneet tätä kirjaa, lainasivat myös tuota.

Kirja-arviot: asiakkaat pitävät toisten asiakkaiden arvioita hyödyllisinä. Yksittäisen kirjaston asiakaskunta saattaa olla liian pieni tuottamaan riittävää määrää arvioita. Voisi aprikoida, riittäisikö Suomeen yksi ainoa arviointijärjestelmä, jonka sisältö olisi tietenkin nähtävissä eri luetteloiden kautta. Helppo visioida, hieman vaikeampi toteuttaa!

—

(1) Amazon: competition or complement to OPACs PDF Document (abstract) / Maja Žumer (University of Ljubljana). – Saatavissa: http://elag2007.upf.edu/papers.htm. – [Luettu 14.5.2007]

(2) Why Are Online Catalogs Still Hard to Use? / Christine L. Borgman. – Journal of the American Society for Information Science, 1996, 47, 7, 493. – Saatavissa (lisensoitu aineisto): http://proquest.umi.com/pqdlink? did=639283961&Fmt=2&clientId=23404&RQT=309&VName=PQD. – [Luettu 14.5.2007]

(3) Research And Design Review : Improving User Access to Library Catalog and Portal Information : Final Report (Version 3) / Marcia J. Bates. – Library of Congress Bicentennial Conference On Bibliographic Control For The New Millennium : Task Force Recommendation 2.3, 2003. – Saatavissa: http://www.loc.gov/catdir/bibcontrol/2.3BatesReport6-03.doc.pdf. – [Luettu 14.5.2007]

(4) Rethinking How We Provide Bibliographic Services for the University of California : Final Report: December 2005. – The University Of California Libraries. Bibliographic Services Task Force. – Saatavissa: http://libraries.universityofcalifornia.edu/sopag/BSTF/Final.pdf. – [Luettu 14.5.2007]

Digitaalinen kirjasto

Kansalliskirjastolaisten kirjoituksia digimaailman ja kirjastojen ajankohtaisista ilmiöistä

Author Archives: Esa-Pekka Keskitalo

Kuka julkaisisi julkaisuarkistossa? (ALA, 5, posti)

Jos ei ole metadataa, ei kannata digitoida (ALA, 4.posti)

Metadataa itsestään ja ilmaiseksi (ALA, 3. posti)

Marc, hän elää! (ALA, 2. posti)

Minne menet, Marc? – osa 1 (ALA, 1. posti)

Kun isoisoisä rammarin osti – ja lisenssin

Abstrakteista on konkreettista hyötyä

Kaikki metadata mulle heti

Terveisiä triangelipäiviltä

Amazon on parempi kuin kirjasto