Ehdotus tietomassojen julkaisustandardeiksi

OECD on vastikään julkaissut valkoisen kirjan “We Need Publishing
Standards for Datasets and Data Tables” [Green, T (2009), “We Need Publishing Standards for Datasets and Data Tables”, OECD Publishing White Paper, OECD Publishing. doi: 10.1787/603233448430 http://dx.doi.org/10.1787/603233448430 ].

Julkaisu etsii ratkaisuja verkossa saatavilla olevan “raakadatan”  paikantamisen, tunnistamisen ja viittaamisen ongelmiin ja sisältää mm. ehdotuksen kuvailumuodoksi.

OAI-ORE: webin tähtikartta

[Lisäys 21.10.2008: OAI-ORE 1.0 on ilmestynyt, ks. lehdistötiedote.]

Nordbibin rahoittama pohjoismainen projekti, jossa Kansalliskirjastokin on mukana, järjesti 22.-23.9. Tukholmassa seminaarin OAI-ORE:sta. Ensimmäisenä päivänä saimme  johdatuksen ORE:en, paikalla olivat idean isät Herbert van de Sompel ja Carl Lagoze. Toisena päivänä ohjelmassa oli pienemmän porukan työpaja, jossa mietittiin ORE:n käytännön sovelluksia. Intensiivisen rupeaman jälkeen OAI-ORE:n dokumentaatiota alkaa vähitellen ymmärtää, kylmiltään aivot eivät oikein suostuneet ottamaan sitä vastaan.

Continue reading

DLF:n rajapintasuositus

Digital Library Federation on julkaissut suosituksen uuden sukupolven asiakasliittymän tarvitsemista rajapinnoista. Huhtikuun alussa tämän ns. Berkeley Accordin olivat allekirjoittaneet monet merkittävät alan yritykset, joihin lukeutuu myös Ex Libris.

Suositus on saatavissa DLF:n sivuilta osoitteesta http://diglib.org/architectures/ilsdi/. Sen mukaiset yhtenäisesti toimivat rajapinnat tekisivät uuden sukupolven käyttöliittymien rakentamisesta ja eri järjestelmien yhteensovittamisesta nykyistä helpompaa. Näyttäisi siltä, että tahtoa tähän suuntaan pääsemiseksi löytyy.

–Ere

PREMIS:n toinen tuleminen

PREMIS on täällä entistä ehompana, sillä siitä on julkaistu versio 2.0. Aioin kirjoittaa tästä digitaalisen pitkäaikaissäilytyksen virstanpylväästä laajemmin jo vuosi sitten, kun kävin Tukholmassa aiheelle omistetussa koulutuksessa. Jäin kuitenkin odottamaan uuden version julkaisua jonka ennustettiin silloin muistaakseni tapahtuvan vielä saman vuoden kesällä.

Continue reading

Näytämmekö asiakkaillemme vain takapuolemme?

Kansalliskirjastossa on kuluvan vuoden aikana valmisteltu tietohallintostrategiaa kirjaston tarjoamille keskitetyille tietoteknisille palveluille. Työn kuluessa ehkä eniten keskustelua ovat herättäneet käsitteet back-end ja front-end, joille on ollut hankala löytää selkeitä suomenkielisiä vastineita. “Takapuolen” käännökseksi muotoutui vielä suhteellisen käsitettävä termi “taustajärjestelmä”. “Etupuolen” kohdalla päädyimme toistaiseksi termiin “asiakasliittymä”, joka saattaa kuitenkin helposti sekaantua asiakassovelluksiin eli clientteihin (jotka kuuluvat sinne takapuolelle).

Terminologiaa olennaisempaa tässä yhteydessä on kuitenkin tulevaisuusskenaario, jossa nämä käsitteet ovat keskeisessä asemassa. Tämänhetkisissä järjestelmissämmehän tilanne on hyvin pitkälle se, että back-end = front-end, eli asiakkaat joutuvat käyttämään jokaista taustajärjestelmää sen omalla käyttöliittymällä. Vaikka niiden asiakasystävällisyyteen panostettaisi kuinka, käyttäjä joutuu silti opettelemaan monta erilaista liittymää. Continue reading

Googlaako nimesi hyvin?

Tietohuollon standardoinnissa avainasemassa ovat erilaiset tunnisteet kuten kirjojen, sarjojen, teosten, verkkoresurssien ja uusimpana kokoelmien, jonka kansainvälinen tunniste (ISCI) on juuri hyväksytty ISOn uudeksi työkohteeksi.

Tällä googlaamisen ja Facebookien aikakaudella tunnisteet ovat nousseet tapetille myös paljon maallisemmalla, ellei suorastaan populistisella tasolla – on nimittäin tajuttu, että nimikin on tunniste. Ja äkkiä tavallinenkin tallaaja alkaa miettiä nimiauktoriteettien ongelmaa. Amerikkalainen Wall Street Journal otsikoi alkuvuodesta “You’re a Nobody Unless Your Name Googles Well”. Continue reading

Kokemuksia eurooppalaisen väitöskirjaportaalin rakentamisesta

Joint Information Systems Committee (Iso-Britannia), Ruotsin kansalliskirjasto ja SURF Foundation (Hollanti) ovat testanneet yhteiseurooppalaista, OAI-PMH:n varaan rakennettua väitöskirjaportaalia. Portaaliin on toistaiseksi haravoitu noin 10000 väitöskirjan metatiedot yhteensä viidestä eri maasta (Hollanti, Iso-Britannia, Ruotsi, Saksa ja Tanska). Continue reading

Marc, hän elää! (ALA, 2. posti)

56 miljoonan tietueen pyörittelyn jälkeen esiintyi Sally McCallum, joka on Kongressin kirjaston MARC-toimiston päällikkö eli MARCin ylimmäinen papitar. Hänen tulevaisuudenvisioissan MARC tarkoitti lähinnä MARCin dataelementtejä. Kun niistä säilyy yhteisymmärrys, voi niiden käyttö erilaisissa toiminnallisissa ja teknisissä ympäristöissä laajentua ja rikastua. XML esiintyi esityksessä monen monta kertaa avaimena tuohon laajentumiseen ja rikastumiseen.

Esityksen kalvot ovat nähtävissä osoitteessa http://www.mcdu.unt.edu/wp-content/
ALA2007McCallumMARCFutures.pdf

Callum jakoi esityksensä yhdeksään osa-alueeseen, joissa hän tarasteli MARCin tilaa eri näkökulmista: (1) MARC ja XML; (2) hienojakoisuus; (3) monikäyttöisyys; (4) laajennettavuus; (5) hierarkioiden tuki; (6) käännettävyys; (7) työkalut; (8) hallintayhteistyö; ja (9) pysyvyys.

Myös McCallum viittasi Los Alamosin johtopäätöksiin MARCista ylätason yhdistävänä, tuottajaneutraalina formaattina. Mutta Los Alamosin valinta oli siis MARCXML, jossa MARCin kentät ja muut ominaisuudet esitetään XML-syntaksissa. MARCXML:n rinnalla on käytettävissä myös MODS (Metadata Object Description Schema), jossa käytetään vain osaa MARCin kentistä ja jossa kentillä on hieman kuvaamammat nimet kuin MARCin numerot.

McCallum piti XML:ää luonnollisesti hyvänä tapana ilmaista MARCin dataelementtejä; XML-maailmaan tosin luultavasti yleistyy jonkinlainen laihdutettu versio MARCXML:stä. Hän muistutti, että XML:kin on joka tapauksessa vain tämän hetken yleiskieli.

MARCin hienojakoisuudesta – ne 2 000 kenttää – McCallum totesi, että hallinnolle ja rahakirstunvartijoille voi joskus olla hieman hankala selittää, mihin kaikkea tätä hienostusta tarvitaan. Hienostus kun tarkoittaa sitä, että jäsentäminen on työlästä.

Koodatulla datalla on omat hyvät puolensa – varsinkin se, että se toimii yli kielirajojen – mutta toisaalta se vaatii taas ominaisuuksia järjestelmiltä, joissa MARCia käytetään hyväksi.

Systeemin keventäminen on kuitenkin hyvin vaikeaa MARCin laajan käyttäjäkunnan takia. Kerran käyttöön otetun kentän poistaminen aiheuttaa hankaluuksia, ja konsensuksen saavuttaminen toimenpiteistä on aika lailla mahdotonta.

Monikäyttöisyyden suhteen puhuja korosti MARCin riippumattomuutta kuvailusäännöistä sekä sitä, että sallii sekä yksinkertaisen että hyvin monimutkaisen käytön. Tulevaisuudessa saatetaan nähdä enemmän sovellusprofiileja – itse asiassa MODSkin on vain eräs sovellusprofiili. Kenties tarvitaan esim. FRBR:n “teosta” varten oma profiili? Edellisiin puhujiin vittasi ajatus profiilien luomisesta tilastollisen datan avustuksella.

Marcin sopeutuvuudesta McCallum otti esimerkiksi UNIMARCIN ja erilaisten URIen luetteloinnin mahdollisuuden. Sen sijaan ei liene järkevää yrittää mahduttaa kaikkia digitaalisen aineiston edellyttämiä, ylläpidon ja käytön mahdollistavia kuvailutietoja MARCiin vaan järjestää linkitys MARCista muihin tarpeellisiin tietueisiin (PREMIS, METS, yms.)

Uudenlaisia käyttötapoja MARCille näyttäisi olevan muodostumassa esim.museoiden ja muiden kulttuurilaitosten piirissä.

Uudenlaiset hierarkian muodot lienevät tarpeellisia. MARCXML:ssä on jo lisätty käsite “collection”, joka tarkoittaa useamman tietueen sisältävää

Käännettävyydestä puhuessaan McCallum esitteli olemassa olevia työkaluja, mutta totesi, että niiden tarjonnassa alkavat rajat tulla vastaan. Konversiotaulut eivät ole kertakeikkoja, vaan niiden ylläpitoon menee joltisestikin resursseja. Tähän liittyen hän listasi myös olemassa olevia työkaluja – mm. “USEMARCON from Europe” – ja uskoi, että jatkossa käytettävissä on runsaasti avointa lähdekoodia varsinkin XML-muotoisen MARCin käsittelyyn.

MARCin kehittämisessä on mukana monta kokkia – kansalliskirjastoja ja liuta erilaisia komiteoita – mikä luo omat haasteensa. Toisaalta se heijastelee sitä, että MARC on maailmanlaajuisesti käytetty, ja MARC-tietueita on maailmassa ainakin miljardi. MARCilla on siis uskottavuutta formaattina, joka on ja ennen kaikkea pysyy. Mutta MARCinkin pitää juosta pysyäkseen paikallaan, ja XML on tällä hetkellä se, jonka mukaan MARCin on ojentauduttava; ja sitä kautta onkin tarjolla uudelaista joustavuutta ja sovellusmahdollisuuksia.