Minne menet, Marc? – osa 1 (ALA, 1. posti)

Tässä ja seuraavissa postauksissa kerron vaikutelmista American Library Associationin (ALA) vuositaisessa suurkonferenssissa. – Lauantaiaamu alkoi reippaasti kello 8 aiheella, jonka kanssa en ole ihan sinut: MARC. Mutta kun metadata-asiat kuitenkin ovat lähellä sydäntä ja osa jokapäiväistä työtä, niin lyöttäydyin kuuntelemaan esitystä MARCin tulevaisuudesta. Tästä on toivottavasti ainakin se hyöty, että kun kirjoitan läpiä päähäni, asiantuntijat voivat innostua kommentoimaan. Näin syntyy siunauksellista sosiaalista vuorovaikutusta kirjasto 2.0:n hengessä.

Mikä se MARC on? Jos ken ei tiedä, niin luekoon täältä: http://www.lib.helsinki.fi/kirjastoala/formaatti/yleista.htm (Jatkossa tulee vielä lisää ammattijargonia, jota kaikkea en voi tässä käydä selittämään.)

Päinvastoin kuin monet tietotekniikan päivänperhot, MARC on ollut olemassa jo jonkin aikaa, nimittäin vuodesta 1966. Se on maailmanlaajuisessa käytössä, ja monissa maissa se muodostaa koko kirjastotoiminnan selkärangan. Formaattia 20 vuotta nuorempia nörttejä jotkut sen antiikkiset pirteet saattavat hätkähdyttää, mutta toimeen on tultu ja nähtävästi tullaan vielä pitkään.

MARC-esityksen ensimmäinen osa esitteli tutkimustuloksia siitä, miten MARCia todella käytetään luetteloinnissa. Esityksen aloitti William Moen, joka, samoin kuin esitystä jatkanut Shawne Miksakin, työskentelee Pohjois-Texasin yliopistossa.

Jos amatöörin sekava selostus alla hermostuttaa, niin esityksen kalvot ovat saatavilla (http://www.mcdu.unt.edu/wp-content/ALA2007Moen22June2007.pdf) samoin kuin oheismoniste, jossa on kovia numeroita pureksittavaksi (http://www.mcdu.unt.edu/wp-content/
ALA2007ProgramHandout22June2007.pdf).

Miksi sitä tutkitaan? MARC on kestänyt aikaa hyvin, mutta digitaalisen informaatioympäristön vallankumous on kuitenkin vaikuttanut myös MARCin asemaan ja tulevaisuudennäkymiin. Sen “markkinaosuus” on pienenemään päin. Ensinnäkään kirjastoissa ei selvitä enää pelkän MARCin varassa, kun tarvitaan uusia metadatan lajeja – teknistä, hallinnollista jne. Myös varsinaisessa bibliografisessa kuvailussa on vaihtoehtoja (Dublin Core yms.) Toiseksi kirjastojen rooli informaatiomarkkinoilla ei ole enää yhtä määräävä kuin ennen. Ennen kaikkea kirjastoluettelot eivät ole enää se akseli, jonka ympärille kaikki tiedonhakutehtävät kiertyvät. Yhteensopivuuden, muunneltavuuden ja uudelleenkäyttämisen vaatimusien kannalta MARC ei ole kaikkein helpoin tapaus. Tämä kehitys herättää kysymyksiä nykyisten luettelointikäytäntöjen kustannustehokkuudesta.

Toisaalta tutkimuksella voidaan nimenomaan tehostaa MARCin hyväksikäyttöä. Hyvä esimerkki on funktionaalinen luettelointi, FRBR (ks. http://www.lib.helsinki.fi/tietolinja/0205/frbr_franar.html) Olemassolevan MARC-datan tuntemus on tarpeen, jotta datan “kääntäminen” FRBR-malliin onnistuu mahdollisimman hyvin. Samalla nähdään myös, mihin suuntaan luettelointikäytäntöjä olisi kehitettävä, jotta ne tukisivat myös funktionaalista luettelointia.

MARC on tavattoman rikas, toisin sanoen monimutkainen formaatti. Siinä on noin 2 000 kenttää (jolla tarkoitan mtös alakenttiä). Kunnianarvoisa perinne on ollut lisätä kenttää kentän päälle: vuonna 1972 kenttiä oli vielä vain 278.

Rikkaus on monimutkaisuutta, mutta monimutkaisuus voi olla rikkautta. Los Alamos National Laboratory totesi taannoin, että MARC on ehdottomasti paras vaihtoehto yhteiseksi formaatiksi mammuttimaisessa projektissa, jossa piti yhtenäistää noin 100 miljoonaa eri tahoilta kerättyä kuvailutietuetta – tosin valituksi tuli MARCXML, fromaatin esitystavaltaan modernisoitu versio (ks.http://www.dlib.org/dlib/september06/
goldsmith/09goldsmith.html)

Aiemmassa tutkimuksessa on havaittu, että 4% kaikista kentistä sisälsi 80% kaikista kirjauksista. Nyt otettiin tutkittavaksi OCLC:lta saadut 56 miljoonaa tietuetta. Näistä 15% eli 8 miljoonaa oli Kongressin kirjaston tuottamia, ja niitä tutkittiin osittain omana ryhmänään.

Kongressin kirjaston tietueissa 80% kirjauksista esiintyi 14:ssä eniten käytetyssä kentässä (8,3%); 90% kirjauksista esiintyi 21:ssä eniten käytetyssä kentässä. Kaksi kolmasosaa kentistä on sellaisia, että niissä on kirjauksia alle prosentissa tietueista.

Tietueita oli siis 8 miljoonaa; eniten käytetty kenttä on 650 (asiasana), jossa on aineistossa lähes 12 000 000 kirjausta yli 5 miljoonassa tietueessa. Yhden ainokaisen kerran Kongressin kirjasto on käyttänyt kenttää 656 (ammatti, jota aineisto käsittelee).

Allekirjoittaneen puutteet niin MARCin kuin FRBR:nkin sisällisessä tuntemuksessa alkoivat vaivata siinä vaiheessa, kun Shawne Miksa esitteli tutkimuksen merkitystä FRBR:n kannalta. Tietueita oli tarkasteltu neljän tiedonhakutoiminnon kannalta – haku, tunnistus, valinta ja nouto (find, identify, select, obtain). Kunkin osa-alueen kannalta oleelliset kentät tunnistettiin aiempiin analyyseihin tukeutuen. Tämän lisäksi tarkasteltiin sitä, mitkä kentät kuuluivat 80/20-kynnyksen ylittäviin kenttiin eli niihin, joissa esiintyi 80% kaikista kirjauksista. Tunnistamista tukee 82 kynnyksen ylittävää kenttää, hakua 61, noutoa 37 ja valintaa 29.

Hienoinen antikliimaksi oli sitten tulosten tulkinta; niitä ei tulkittu. Pikemminkin yleisöltä pyydettiin tulkintoja ja ehdotuksia siitä, mitä jatkossa pitäisi tarkastella. Maallikosta tuntui, että yksi tulkinta on se, että MARCissa on kovasti paljon ilmaa, kun mitättömän vähän käytettyjä kenttiä on niin viljalti. Mutta kuten saatoin ounastella, keskustelussa korostettiin, että kaikki ovat erilaisia mutta yhdenvertaisia ja että jokin vähän käytetty kenttä voi olla tosi tärkeä jonkin kirpunkokoisen kirjaston toiminnassa, joten siitä ei voi mitenkään luopua.

Aika vihjailevasti Miksa kyllä kysyi, pystyvätkö kuulijat perustelemaan nykyisiä MARC-käytäntöjään kustannustehokkuuden kannalta. Vaihtoehtona hän esitti “arvokasta, tehokasta, laadukasta dataa harvoissa kentissä”.

Sen konkreettisen seikan datan analyysi kyllä paljasti, että sovellusohjeet ja jokapäiväinen luettelointi eivät aina oikein kohtaa. Tutkimuksessa oli näet tarkasteltu Core Records Standards -ohjeiden ja kenttien todellisen käytön yhteyttä ja havaittu selkeitä viitteitä siitä, että käytännössä ohjeista poiketaan säännöllisesti. En osaa sanoa, tuliko tämä kenellekään yllätyksenä tai luuraako Suomessa kenties vastaavia ongelmia – jos kyseessä nyt edes on mikään ongelma.

Digitaalinen kirjasto

Kansalliskirjastolaisten kirjoituksia digimaailman ja kirjastojen ajankohtaisista ilmiöistä

Minne menet, Marc? – osa 1 (ALA, 1. posti)