Primon pilotti

Ainakin korkeakoulujen kirjastoväen piirissä “Primo” on jo varmasti monelle tuttu. Kyseessä on eräänlainen seuraavan sukupolven Nelliportaali-tyyppisten palvelujen järjestelmä. Ohjelmiston tekijä on Nelliportaalin taustalla toimivien MetaLib- ja SFX-ohjelmistojenkin taustalta löytyvä Ex Libris.Vanderbilt University on julkistanut Primon pilottiversion osoitteessa http://alphasearch.library.vanderbilt.edu/. Continue reading

Kuka julkaisisi julkaisuarkistossa? (ALA, 5, posti)

Collecting for Institutional Repositories: All the News That’s Fit to Keep. Tällä kertaa vuorossa oli kolme esitystä meillä Suomessakin ajankohtaisesta kysymyksestä: mitä julkaisuarkistoihin pitäisi panna ja miten se saadaan sinne. Vastaus: laitokset ja tutkijat tietävät parhaiten, mitä kannattaa julkaista, ja loppu onkin vain tarmokasta mainontaa, markkinointa ja hihasta nykimistä.

Esityksiä oli taas kolme: Susan Gibbons Rochesterin yliopistosta; Jim Ottaviani Michiganin yliopistosta sekä George Porter California Institute of Technologysta.

Susan Gibbons kertoi ensin pitkästä ja huolellisesta suunnittelusta, jossa toimintaperiaatteita ja prosesseja työstettiin monen työryhmän voimin. Loppujen lopuksi kuitenkin kävi niin, että suuri osa tuosta työstä ei osoittautunut kovinkaan hyödylliseksi. Monet visiot julkaisuarkiston käytöstä eivät toteutuneet, ja monia yllättäviä ksymyksiä on ilmaantunut toiminnan kehittyessä. Hän korosti, että kun kyse on uudenlaisesta toiminnasta, joustavuus on todella tarpeen.

Sisältökriteereitäkin oli pohdittu paljon, mutta parhaaksi politiikaksi oli osoittautunut antaa aineiston luovuttajien tehdä päätökset. Kenenkään intressissä ei tunnu olevan roskan julkaiseminen. Kaikeella sillä aineistolla, jota julkaisarkistoon oli pantu, oli myös ollut käyttöä, joten siinäkin suhteessa itseohjautuva sisällönvalinta on ollut onnistunut ratkaisu.

Sisältöä ei ole myöskään rajattu vain rinnakkaisjulkaisemiseen. Mukana on “student papers” – mitä kaikkea termi pitääkään sisällään – sekä myös primaariaineistoa, kuten eism. digitoitu kokoelma harvinaisia nuotteja. Sellainen periaate kuitenkin on ollut, että aloitteen aineiston lisäämiseen on tultava laitoksilta – toisin sanoen kirjasto ei omasta aloitteestaan lisää aineistoja. Tätä pn pidetty tärkeänä, jotta laitokset todella tuntisivat palvelun omakseen.

Itsearkistointi ei ole ollut niin yleistä kuin oli toivottu, ja sen edistämiseksi on vielä tehtävä työtä, Gibbons kertoi. Plajon tavallisempaa on, että arkistoinnin tekee jokin välikäsi – laitoksen hallintohenkilökunta, opiskelijatyöntekijät tai – kaikkein useimmin – kirjasto. Kirjaston iso rooli ei ole pitkällä aikavälillä kestävä ratkaisu, vaikkakin dialogista laitosten kanssa on näin lakuvaiheessa llut myös paljon hyötyä.

Arkisto on toteutettu DSpacella, kuten myös seuraavaksi esitelyt Deep Blue (ei nähtävästi sukua samannimiselle shakinpelaajalle). Rochesterin arkisto on osoitteessa https://urresearch.rochester.edu/

Rochesterissa ollaan asetettu joitakin pitkäaikaissäilytyksen sanelemia vaatimuksia luovutettavalle aineistoille, mutta ei kovin tiukkoja. Tiedostomuotojen tulee olla sellaisia, että niiden dokumentaatio on saatavissa. Näin ollen PDF kelpaa, mutta Word ei.

Tekijänoikeudet aiheuttivat alussa paljon kyselyä. Avoimessa julkaisuarkistossahan arkisto kuitenkin saa ainoastaan ei-yksinoikeudellisen levitysoikeuden, eli tekijänoikeudet eivät oikeastaan siirry. Tekijänoikeusasioissa aineiston arkistoja on autettu paljon ja kädestä pitäen. Tutkija on esimerkiksi voinut tuoda julkaisuluettelonsa kirjastoon, joka on sitten selvitellyt, mitkä nimekkeet on mahdollista panna julkaisuarkistoon.

Seuraavaksi esiintyi Jim Ottaviani ja kertoi Deep Bluesta (ks. http://deepblue.lib.umich.edu/)Myös Jim Ottaviani tähdensi julkaisuarkistojen myymistä yliopistolla, Kyseessä on loppujen lopuksi varsin uudenlainen palvelu, jossa kirjastot ovat tekemisissä tutkijoiden ja opettajien kanssa uudenlaisissa yhteyksissä.

Ottaviani vertasi laitoksia riikinkukkoihin: markkinoinnissa ei pidä kertoa, millä tavalla julkaisuarkistot tekevät maaimasta paremman paikan, vaan millä tavalla ne hyödyttävät laitosta ja tuovat sille mainetta ja kunniaa, ehkä rahaakin.

Hän käytti myös vertausta “ohjaajan versio”. Julkaisuarkistossa voidaan julkaista liikkuvaa kuvaa, jota ei lehdissä voi käyttää; ja siellä voidaan julkaista värikuvia, joiden saaminen lehteen maksaisi maltaita. Oikeastaan ainoa rajoitus, joka julkaisemiselle on asetettu, on se, että keskeneräisiä dokumentteja ei julkaista.

Michiganissa DSpacen hierarkia on hyvin litteä, tai oikeastaan sitä ei ole ollenkaan: kaikki laitokset löytyvät samalta tasolta. Paljon oli pantu painoa toimivan itsearkistointilomakkeen suunnitteluun.

Markkinoinnissa oli panostettu isoihin avajaisiin, joita varten arkistoon oli hankittu aineistoa edeltäkäsin, osin kirjoittajien tietämättä! Neljän ison kustantajan kanssa oli lisenssineuvotteluissa otettu mukaan sellainen klausuuli, että yliopistolla on oikeus siirtää tutkijoidensa artikkeleita omiin julkaisuarkistoihinsa. Tutkijat saattoivat hieman hätkähtää, mutta olivat kyllä luopuneet oikeudesta artikkeleihinsa siinä määrin, ettei heidän oikeuksiaan prosessissa loukattu.

Markkinointia oli tehty kosolti mm. seuraavilla argumenteilla:

  • Julkaisuarkistossa julkaiseminen lisää siteerauksen määrää 25 – 250 prosenttia.
  • Kirjasto huolehtii aineiston säilymisestä
  • Julkaisulisenssi on parin kolmen kappaleen pituinen eikä aiheuta stressiä
  • Itsearkistoinnissa kysytään vain kolme asiaa: nimeke, tekijä ja julkaisuaika.

Caltechin George Porterilla oli esityksessään enemmän hauskoja kaskuja kuin mitään erityistä perussanomaa. Kyse oli ennen kaikkea elektronisten opinnäytteiden julkaisemisesta Caltechissa. Se herätti huomiota, että väitöskirjan julkaisemisesta on kieltäytynyt ainoastaan kaksi henkilöä. Laitoksilla on alempien opinnäytteiden suhteen hyvin vaihtelevia käytäntöjä, ja sen kanssa on pystytty elämään.

Myös Caltechissa kirjastolla on varsin laajat tekijänoikeuspalvelut. Verkkojulkaisujen suhteen kirjasto myös omaksuu vastuun mahdollisista rikkeistä, päinvastoin kuin esim. Rochesterissa (jossa kyllä otetaan asianomaiseen yhteyttä, jos silmiin sattuu joku ilmeisen luvaton julkaisutapaus).

Kaikki totesivat yhteisesti, että pre- ja postprintit eivät ole merkittäviä arkistojen sisällössä. Niiden julkaisemiselle voisi olla enemmän tilausta ajan myötä; otettiin esimerkki lehdistä, joissa artikkelien jonotusaika on pari vuotta – luulisi preprintin julkaisemisen silloin kiinnostavan kirjoittajaa.

Kaikki metadata mulle heti

Jonathan Rochkind kirjoitti taannoin Library Journalissa ((Meta)search like Google”. 2/15/2007. http://www.libraryjournal.com/article/CA6413442.html) melko provokatiivisesti siitä, että monihaku punnittiin ja köykäiseksi havaittiin jo iloisella 90-luvulla. Monihakuhan tarkoittaa sitä, että asiakas tekee yhdestä käyttöliittymästä haun, mutta taustalla otetaan yhteys useisiin etätietokantoihin enemmän tai vähemmän standardeja rajapintoja (Z30.50, SRU) käyttäen. Eri kannoista saadut tulokset sitten esitetään asiakkaalle kerralla ja yhtenäistetyssä muodossa.

Köykäinen tahi ei, monihaku on loistava parannus verrattuna siihen, että asiakkaan pitäisi uskollisesti tehdä sama haku tietokantaan toisensa jälkeen. Siihen verrattuna monihaku on tietenkin salamannopeaa – muistelematta nyt laisinkaan aikaa ennen WWW:iä. Mutta osaavatko asiakkaat olla tästä kiitollisia, vai vertaavatko, pannahiset, monihaun suhteellista hitautta eräiden toisten hakujen suhteelliseen nopeuteen?

Vaihtoehtokin on olemassa: paikalliset indeksit. OAI-PMH-protokollan (http://www.openarchives.org/pmh/) kehittäminen on ollut tietoinen askel tähän suuntaan, pois monihausta. OAI-PMH määrittelee tavan, jolla tietokannasta voidaan käydä kopioimassa metadataa. Metadata voidaan asettaa haettavaksi jossakin aivan muualla. Metadataa voidaan hakea useista eri paikoista ja yhdistellä uudenlaisiksi kokonaisuuksiksi paikallisten tarpeiden mukaan. Mutta metadata voidaan tietysti saada omaan haltuun myös muilla järjestelyillä.

Jos metadata olisi oikeasti kirjaston hallussa, sille voisi tehdä temppuja, jotka parantavat asiakaspalvelua. Esimerkiksi isot lehtipaketit voitaisiin hajottaa ja yhdistellä uudestaan niin, että alakohtaiset haut kohdistuisivat täsmällisesti juuri sen alan lehtiin. Muutenkin eri asiakaskunnille olisi helpompaa räätälöidä palveluja.

Kirjastojärjestelmätoimittajat ovat jo ottamassa askeleita paikallisen indeksoinnin suuntaan. Asiaa lähestytään varovasti siten, että päähuomio on “omien” tietokantojen indeksoinnissa. Portaali ei enää teksi Z39.50-hakua kirjastoluetteloon, vaan luettelo olisi indeksoitu ja haut kohdistuisivat siihen. Saman tien indeksiin voisi lisätä pari naapurikirjastoa tai muuta resurssia – ja “yhteisluettelo” olisi valmis.

Tästä on “vain” tekninen, taloudellinen ja poliittinen askel siihen, että kaikki kirjaston omistamat ja lisensoimat aineistot olisivat haettavissa omista indekseistä. Tekniikassa on lähinnä kyse sen skaalautumisesta vaadittaviin mittoihin. Itse asiassa monet kustantajat kyllä mahdollistavat jo metadatansa kopioimisen – muutenhan Google Scholar (http://scholar.google.com/) ei laisinkaan toimisi. Se, saavatko kirjastot kopiointimahdollisuuden käyttöönsä vaiko vain Google, on sitten korkeampaa politiikkaa. Liiketoiminnan malleissa riittänee hieromista puolin ja toisin; kenties tällä saralla olisi tilaa aivan uudenlaisille palveluntarjoajille.

Vaikka varmaankaan paikalliset indeksit eivät korvaa etähakuja tänä eivätkä ensi vuonna, kannattaa varmaan henkisesti valmistautua tämmöiseen paradigman muutokseen – elleivät viisaat insinöörit keksi sitä ennen jotakin ihan muuta.

Huomioita FinELibin käyttäjäkyselyn tuloksista

Kansalliskirjastossa toimiva Kansallinen elektroninen kirjasto FinElib vietti tänään kymmenvuotisjuhliaan Helsingin yliopiston pienessä juhlasalissa järjestetyssä koko päivän seminaarissa. Lähes samanaikaisesti juhlien kanssa julkistettiin myös FinELibin tuoreimman, huhtikuun aikana tehdyn käyttäjäkyselyn ensimmäiset tulokset.

Kyselyn formaattia on uudistettu jonkin verran aiempiin vuosiin verrattuna, ja tulokset ovat monilta osin hyvin mielenkiintoisia. Kyselyn mukana tulleet kuulemma erittäin lukuisat avoimet kommentit eivät tosin vielä ole saatavilla, mutta niistäkin pitäisi olla tulossa jonkinlainen kooste, kunhan aineisto saadaan ensin käytyä läpi.

Kyselyyn tuli kuukauden aikana yhteensä 5573 vastausta, joista yliopistoista tuli 1882, ammattikorkeakouluista 2154, tutkimuslaitoksista 611 ja yleisistä kirjastoista 926. Kyseessä oli vapaaehtoinen nettikysely, eli siihen vastanneet eivät välttämättä ole edustava otos kaikista aineistojen potentiaalisista käyttäjistä, mutta tästä huolimatta tuloksista saa kuitenkin hyvän käsityksen elektronisten aineistojen käytön trendeistä. Yleisellä tasolla kyselyn vastaukset näyttävät osoittavan, että kirjastojen tarjoamia elektronisia aineistoja arvostetaan, ja niillä on myös ollut positiivinen vaikutus korkeakouluissa ja tutkimuslaitoksissa tehtävään työhön (kysymys 2.10).

FinELibin sivuille on tallennettu myös alkuperäiset kyselylomakkeet, mistä onkin vastauksia tulkitessa hyötyä. Esim. viitetietokantojen suosion vähäisyydestä (kysymys 2.6) on ehkä turha tehdä kovin hätäisiä johtopäätöksiä, kun vaihtoehtoina olivat myös elektroniset kokotekstiaineistot ja vastaajia pyydettiin valitsemaan kahdeksasta vaihtoehdosta kolme ensisijaisinta ja tärkeintä. Jos samat aineistot olisivat saatavilla myös kokotekstinä, kukapa valitsisi pelkän viitetietokannan?

Asiakkaiden eniten kaipaamissa aineistoissa on ehkä odotetustikin suuria sektorikohtaisia eroja. Yliopistoissa ja tutkimuslaitoksissa ulkomaiset tieteelliset lehdet ovat ylivoimaisesti halutuin aineisto, mutta ammattikorkeakouluissa ja etenkin yleisissä kirjastoissa niiden kysyntä on huomattavasti vähäisempää. Sanakirjat ja hakuteokset ovat toisaalta suosittuja sektorista riippumatta.

Omalta kannaltani mielenkiintoista on mm. se, miten tärkeänä aineistona yliopistojen ja ammattikorkeakoulujen opinnäytteitä ja elektronisia julkaisuja pidetään kaikilla sektoreilla – ammattikorkeakouluissa ne ovat jopa kaikkein toivotuin aineisto. Korkeakoulujen elektroniset julkaisut ovat jo nyt pääosin vapaasti saatavilla verkossa, eli kysymyksen muotoilun (“minkä tyyppisiä elektronisia aineistoja ensisijaisesti toivoisit hankittavan [organisaatiosi] käyttöön”) ei olisi pitänyt edes suosia niiden valitsemista.

Yliopistojen julkaisujen menestyksen lisäksi tuloksissa herättää lisäksi huomiota myös kotimaisten lehtien suuri suosio. Tutkimuslaitoksia lukuun ottamatta ne ovat kaikilla sektoreilla neljän halutuimman aineiston joukossa. Kansalliskirjaston ylläpitämän, nimenomaan kotimaisia tieteellisiä artikkeleita julkaisevan Elektra-palvelun käyttö voisi olla runsaampaakin, mutta kysynnän puutteesta asian ei siis pitäisi olla kiinni. Ilmeisesti kotimaisten aineistojen paketointia, haettavuutta ja markkinointia pitäisi vielä kehittää.

Kyselyssä tiedusteltiin myös sitä, olisivatko vastaajat valmiita luopumaan painetuista aineistoista, jos ne olisivat saatavilla elektronisena versiona. Lehtien kohdalla vastaus oli selkeä “kyllä”, samoin sanakirjojen ja hakuteosten, mutta painettujen monografioiden osalta vastaus näyttää yhä pääosin olevan “ehdottomasti ei”. Vastaavat ulkomaiset kyselyt ovat tiettävästi tuottaneet samansuuntaisia vastauksia, eli kyseessä ei ole mikään suomalainen erikoisuus. Selitystä tälle kannalle löytyy varmaankin kysymyksestä 2.11., jossa tiedusteltiin elektronisten aineistojen käytön ongelmista. Sektorista riippumatta vastauksissa toistuu vaihtoehto “ruudulta on hankala lukea”.

Yksi kysymyksistä (3.1) koski myös sitä, missä elektronisia aineistoja käytetään. Oman työhuoneen suuri suosio yliopistoissa ja tutkimuslaitoksissa ei ehkä ole yllätys, mutta toisaalta on mielenkiintoista huomata, miten paljon aineistoja käytetään myös kotona. Esim. yliopistoissa kodin osuus eletronisten aineistojen edellisenä käyttöpaikkana on yli 30%, kun taas kirjastojen, oppimiskeskusten ja atk-asemien osuus on yhteensä vain alle puolet tästä. Eli jos kirjaston paikalliskäyttäjät näyttävät vähentyneen, todennäköinen syy löytyy todellakin siitä, että käyttäjät istuvat nyt joko omassa työhuoneessa tai kotona. Vastaajat olivat myös sektorista riippumatta lähes yksimielisiä siitä, että tärkein elektronisia aineistoja koskeva tiedonlähde ovat kirjaston omat kotisivut.

Terveisiä triangelipäiviltä

Järjestyksessä kolmannet triangelipäivät järjestettiin 22.-24.5. Tampereen ammattikorkeakoulussa Tampereen seudun kirjastojen yhteisvoimin. Triangelipäivissä yhdistyvät Voyagerin ja Metalib-SFX:n käyttäjäryhmien kokoukset, ja lisänä on yleisemmin kirjastopalveluihin ja erityisesti niiden kehittämiseen, tekniikkaan ja yhteensopivuuteen liittyviä esityksiä.

Päivien ohjelma on osoitteessa http://www.uta.fi/laitokset/kirjasto/triangeli/index.htm

Päiville oli kutsuttu puhumaan Richard Wallis Talis Groupista, joka on brittiläinen kirjastojärjestelmäfirma. Esitys käsitteli Kirjasto 2.0:aa, joka nyt on kaikkien huulilla. Esityksen pääpiirteet käyvät ilmi Richardin blogista, http://blogs.talis.com/panlibus/archives/2007/
05/openness_and_sh.php

Päivistä varmaan poikii vielä lisääkin sanottavaa. Ehkäpä ensi vuonna olemme jo oppineet siihen, että blogaamme samalla kun kuuntelemme esityksiä. Ellei sitten ensi vuonna ole jo ihan uudet tekniikat.

Tässä täytyy vielä erityisesti kiittää kaikkia asianosaisia mainioista järjestelyistä!

Kirjastojen käyttämän metadatan lähteistä

OCLC:n varapresidentti Lorcan Dempsey pohtii tuoreessa blogimerkinnässään (“Four sources of metadata about things“) erilaisia aineistoja kuvailevan metadatan lähteitä, jotka hän luokittelee neljään eri ryhmään.

1.) Ammattimaisesti tuotettu metadata

Tähän kirjastojen näkökulmasta tutuimpaan ja perinteikkäimpään ryhmään kuuluvat esim. kirjastonhoitajien luettelointisääntöjen mukaan kirjastotietokantaan tuottamat kuvailutiedot.

2.) Käyttäjien ja tekijöiden tuottama metadata
Dempsey käyttää termiä “contributed metadata”, jolle en keksi tähän hätään luontevaa suomennosta. Dempsey luokittelee joka tapauksessa saman termin alle sekä aineistojen tekijöiden tuottaman metadatan että esim. LibraryThingin kaltaisten palveluiden satunnaisten käyttäjien tuottamat kuvailutiedot. Molemmat ryhmät ovat toki kirjastojen näkökulmasta pääosin ulkopuolisia, mutta tietojen luotettavuudessa voi kuitenkin olettaa olevan eroa (mihin Dempsey viittaa vain epäsuorasti)…

3.) Ohjelmallisesti tuotettu metadata
Digitaalisista aineistoista automaattisesti koottu metadata – esim. digitoiduista lehdistä automaattisesti poimitut otsikko- tai tekijätiedot.

4.) Intentionaalinen metadata
Aineistojen käyttöön ja käyttötapoihin pohjautuva tieto – esim. Amazonin asiakkaidensa käyttäytymisen (ostetut kirjat, katsotut sivut) pohjalta koostamat suositukset tai Googlen www-sivujen linkkeihin perustuva PageRank-luokitus.

Jos tätä luokittelua katsoo kansalliskirjastolaisen näkökulmasta, ainoa kokonaan vieras alue taitaa olla intentionaalinen metadata (ks. myös “Amazon on parempi kuin kirjasto” ja etenkin Minna Rouhiaisen kommentti). Vaikka käyttäjien tuottama metadata on vielä tulevaisuuden asia, tekijöiden toimittamaa metadataa käytetään jo nyt esim. E-thesis-palvelussa. Ohjelmallisesti tuotettua metadataa hyödynnetään taas esim. Mikkelin digitointikeskuksessa.

Kuten Dempsey aivan oikein toteaa, näitä erilaisista ja eritasoisista lähteistä koottuja metatietoja ei ole syytä asettaa vastakkain, vaan pikemminkin on syytä pohtia sitä, miten kuvailutietojen muodostama kokonaisuus saadaan pysymään hallinnassa ja miten niiden pohjalta pystytään rakentamaan mielekkäitä palveluita. Hyvä kysymys on myös se, millaisten aineistojen kuvailuun tarvitaan tulevaisuudessa ammattilaisten työpanosta ja mitkä kuvailutiedot on järkevämpää tuottaa jossain muualla tai jollain muulla menetelmällä.

Tietolinja 1/2007 ilmestynyt

Kansalliskirjaston verkkolehden Tietolinjan uusin numero sisältää muiden kiinnostavien artikkelien ohessa myös useita digijulkaisuihin ja digitaalisen kirjaston järjestelmiin liittyviä juttuja.

Samu Viita kertoo matkaraportissaan tammikuussa San Antoniossa pidetystä Open Repositories 2007 -seminaarista, jossa mm. julkistettiin virallisesti Manakin-käyttöliittymäohjelmiston versio 1.0 ja kuultiin mielenkiintoisia uutisia DSpace-ohjelmiston tulevaisuudennäkymistä.

Esa-Pekka Keskitalo esittelee URN-tunnisteiden taustalla olevia ideoita ja tunnisteiden käytön nykytilannetta.

Ari Rouvari pohtii Nelli-portaalin vastauksia viimeaikaisten Kirjasto 2.0 -visioiden esittämiin haasteisiin.

Juha Hakala käy läpi kirjastoautomaation kehitystä parin viime vuosikymmenen ajalta artikkelissaan, joka käsittelee erikseen palvelinten, tallennusvälineiden ja ohjelmistojen kehitystä ja hahmottelee kirjastojen tietoteknisten järjestelmien tulevaisuudennäkymiä.

Lisäksi lehden artikkeleissa esitellään äskettäin julkistettua Yleistä suomalaista ontologiaa (YSO), kansallisen ONIX-keskuksen perustamiseen tähtäävää Kirjan tie -hanketta ja MARC21-formaattiin siirtymisen tämänhetkistä tilannetta.