OhioLink (ALA, 6.posti)

Posted on 26.6.2007 by Esa-Pekka Keskitalo

Sessio: “Issues and Trends in Digital Repositories of Non-textual Information: Support for Research and Teaching”.

Thomas Dowling esitteli OhioLINKin Digital Resource Commonsia. OhioLINK on Ohion osavaltion kirjasto- ja tietopalveluverkosto – konsortio, joka monessa suhteessa muistuttaa Suomen FinELibiä ja Linnea-konsortiota. Paitsi, että kuten Amerikkaan sopii, se on ainakin joissain suhteissa isompi. Muun muassa se lataa lisensoiduista tietokannoista artikkelit paikalliseen tietokantaan, jossa niitä onkin sitten 9 miljoonaa, ynnä muutamia tuhansia e-kirjoja.

OhioLINKillä on ollut ja on monenlaisia digitaalisen aineiston järjestelmiä – OhioLINK electronic theses and dissertatioms (http://www.ohiolink.edu/etd), OhioLink Digital Media Center (http://dmc.ohiolink.edu/) jne. Niinpä mieleen onkin siellä tullut, pitäisikö kaikki digitaaliset kokoelmat siirtää yhteen järjestelnmään – joka olisi toteutettu avoimen lähdekoodin ohjelmistoilla.

Dowling oli vahvasti sitä mieltä, että vapaa lähdekoodi – ajateltakoon nyt sellaisia tapauksia kuin Apache, Lucene, Tomcat ym. – voi tarjota alansa parhaan ratkaisun. Niinpä Fedora on ollut se alusta, jolle OhioLINKissä on alettu rakentaa.

Tässä välissä sopinee huomauttaa, että DSpace ja Fedora ovat olleet ne arkistoinnin OSS-ratkaisut, jotka kerta kerran jälkeen ovat seuraamissani sessioissa tulleet esiin. Jos jotakin muuta on ollut, se on useimmiten ollut yliopiston kokonaan itsensä rakentamaa. Kaupallisia tuotteita kukaan ei ainakaan ole kehdannut ääneen mainita.

Se, mikä lisäksi kiinnitti huomiota, on se, että kaikki Fedorasta puhuneet ovat koristelleet puheensa sivuhuomautuksilla siitä, kuinka raskasta ja aikaavievää sen implementointi on ollut – jos nyt mitään valmista edes vielä on ollut esittää. Pitkällä aikavälillä ratkaisun on kuitenkin vakuutettu olevan oikea. Ehkäpä todellakin pitkällä aikavälillä Fedoran ympärille kehittyy lisäosia, joiden avulla sitä voi päästä oikeasti käyttämään, mutta se kehitys on kyllä vielä kesken. Kovasti uskoa ja lujaa luottamusta vielä tarvitaan, ynnä pivollinen koodareita, jos Fedoraa aikoo käyttää.

Fedoran lisäksi OhioLINKIssä on ollut agendalla Ohion-laajuisen DSpace-järjestelmän rakentaminen, mikä on kuitenkin viivästynyt muiden kiireellisten tehtävin takia. Haastetta ei pienennä se, että asiakkaina olisi 85 instituutiota. Tässä yhteydessä Dowling sivusi myös OAI-PMH-protokollan tiettyjä rajoituksia. Kyse ei ole niinkään itse protokollan puutteista, vaan sen oikeasta käytöstä. Jos esimerkiksi Ohiossa 85 tahoa alkaa haravoimaan toisiaan, tuloksena on kaaos. Jonkinlainen keskittäminen on siis paikallaan. OAI-hygieniaan pitänee vielä palata tässäkin blogissa!

Kuka julkaisisi julkaisuarkistossa? (ALA, 5, posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

Collecting for Institutional Repositories: All the News That’s Fit to Keep. Tällä kertaa vuorossa oli kolme esitystä meillä Suomessakin ajankohtaisesta kysymyksestä: mitä julkaisuarkistoihin pitäisi panna ja miten se saadaan sinne. Vastaus: laitokset ja tutkijat tietävät parhaiten, mitä kannattaa julkaista, ja loppu onkin vain tarmokasta mainontaa, markkinointa ja hihasta nykimistä.

Esityksiä oli taas kolme: Susan Gibbons Rochesterin yliopistosta; Jim Ottaviani Michiganin yliopistosta sekä George Porter California Institute of Technologysta.

Susan Gibbons kertoi ensin pitkästä ja huolellisesta suunnittelusta, jossa toimintaperiaatteita ja prosesseja työstettiin monen työryhmän voimin. Loppujen lopuksi kuitenkin kävi niin, että suuri osa tuosta työstä ei osoittautunut kovinkaan hyödylliseksi. Monet visiot julkaisuarkiston käytöstä eivät toteutuneet, ja monia yllättäviä ksymyksiä on ilmaantunut toiminnan kehittyessä. Hän korosti, että kun kyse on uudenlaisesta toiminnasta, joustavuus on todella tarpeen.

Sisältökriteereitäkin oli pohdittu paljon, mutta parhaaksi politiikaksi oli osoittautunut antaa aineiston luovuttajien tehdä päätökset. Kenenkään intressissä ei tunnu olevan roskan julkaiseminen. Kaikeella sillä aineistolla, jota julkaisarkistoon oli pantu, oli myös ollut käyttöä, joten siinäkin suhteessa itseohjautuva sisällönvalinta on ollut onnistunut ratkaisu.

Sisältöä ei ole myöskään rajattu vain rinnakkaisjulkaisemiseen. Mukana on “student papers” – mitä kaikkea termi pitääkään sisällään – sekä myös primaariaineistoa, kuten eism. digitoitu kokoelma harvinaisia nuotteja. Sellainen periaate kuitenkin on ollut, että aloitteen aineiston lisäämiseen on tultava laitoksilta – toisin sanoen kirjasto ei omasta aloitteestaan lisää aineistoja. Tätä pn pidetty tärkeänä, jotta laitokset todella tuntisivat palvelun omakseen.

Itsearkistointi ei ole ollut niin yleistä kuin oli toivottu, ja sen edistämiseksi on vielä tehtävä työtä, Gibbons kertoi. Plajon tavallisempaa on, että arkistoinnin tekee jokin välikäsi – laitoksen hallintohenkilökunta, opiskelijatyöntekijät tai – kaikkein useimmin – kirjasto. Kirjaston iso rooli ei ole pitkällä aikavälillä kestävä ratkaisu, vaikkakin dialogista laitosten kanssa on näin lakuvaiheessa llut myös paljon hyötyä.

Arkisto on toteutettu DSpacella, kuten myös seuraavaksi esitelyt Deep Blue (ei nähtävästi sukua samannimiselle shakinpelaajalle). Rochesterin arkisto on osoitteessa https://urresearch.rochester.edu/

Rochesterissa ollaan asetettu joitakin pitkäaikaissäilytyksen sanelemia vaatimuksia luovutettavalle aineistoille, mutta ei kovin tiukkoja. Tiedostomuotojen tulee olla sellaisia, että niiden dokumentaatio on saatavissa. Näin ollen PDF kelpaa, mutta Word ei.

Tekijänoikeudet aiheuttivat alussa paljon kyselyä. Avoimessa julkaisuarkistossahan arkisto kuitenkin saa ainoastaan ei-yksinoikeudellisen levitysoikeuden, eli tekijänoikeudet eivät oikeastaan siirry. Tekijänoikeusasioissa aineiston arkistoja on autettu paljon ja kädestä pitäen. Tutkija on esimerkiksi voinut tuoda julkaisuluettelonsa kirjastoon, joka on sitten selvitellyt, mitkä nimekkeet on mahdollista panna julkaisuarkistoon.

Seuraavaksi esiintyi Jim Ottaviani ja kertoi Deep Bluesta (ks. http://deepblue.lib.umich.edu/)Myös Jim Ottaviani tähdensi julkaisuarkistojen myymistä yliopistolla, Kyseessä on loppujen lopuksi varsin uudenlainen palvelu, jossa kirjastot ovat tekemisissä tutkijoiden ja opettajien kanssa uudenlaisissa yhteyksissä.

Ottaviani vertasi laitoksia riikinkukkoihin: markkinoinnissa ei pidä kertoa, millä tavalla julkaisuarkistot tekevät maaimasta paremman paikan, vaan millä tavalla ne hyödyttävät laitosta ja tuovat sille mainetta ja kunniaa, ehkä rahaakin.

Hän käytti myös vertausta “ohjaajan versio”. Julkaisuarkistossa voidaan julkaista liikkuvaa kuvaa, jota ei lehdissä voi käyttää; ja siellä voidaan julkaista värikuvia, joiden saaminen lehteen maksaisi maltaita. Oikeastaan ainoa rajoitus, joka julkaisemiselle on asetettu, on se, että keskeneräisiä dokumentteja ei julkaista.

Michiganissa DSpacen hierarkia on hyvin litteä, tai oikeastaan sitä ei ole ollenkaan: kaikki laitokset löytyvät samalta tasolta. Paljon oli pantu painoa toimivan itsearkistointilomakkeen suunnitteluun.

Markkinoinnissa oli panostettu isoihin avajaisiin, joita varten arkistoon oli hankittu aineistoa edeltäkäsin, osin kirjoittajien tietämättä! Neljän ison kustantajan kanssa oli lisenssineuvotteluissa otettu mukaan sellainen klausuuli, että yliopistolla on oikeus siirtää tutkijoidensa artikkeleita omiin julkaisuarkistoihinsa. Tutkijat saattoivat hieman hätkähtää, mutta olivat kyllä luopuneet oikeudesta artikkeleihinsa siinä määrin, ettei heidän oikeuksiaan prosessissa loukattu.

Markkinointia oli tehty kosolti mm. seuraavilla argumenteilla:

Julkaisuarkistossa julkaiseminen lisää siteerauksen määrää 25 – 250 prosenttia.
Kirjasto huolehtii aineiston säilymisestä
Julkaisulisenssi on parin kolmen kappaleen pituinen eikä aiheuta stressiä
Itsearkistoinnissa kysytään vain kolme asiaa: nimeke, tekijä ja julkaisuaika.

Caltechin George Porterilla oli esityksessään enemmän hauskoja kaskuja kuin mitään erityistä perussanomaa. Kyse oli ennen kaikkea elektronisten opinnäytteiden julkaisemisesta Caltechissa. Se herätti huomiota, että väitöskirjan julkaisemisesta on kieltäytynyt ainoastaan kaksi henkilöä. Laitoksilla on alempien opinnäytteiden suhteen hyvin vaihtelevia käytäntöjä, ja sen kanssa on pystytty elämään.

Myös Caltechissa kirjastolla on varsin laajat tekijänoikeuspalvelut. Verkkojulkaisujen suhteen kirjasto myös omaksuu vastuun mahdollisista rikkeistä, päinvastoin kuin esim. Rochesterissa (jossa kyllä otetaan asianomaiseen yhteyttä, jos silmiin sattuu joku ilmeisen luvaton julkaisutapaus).

Kaikki totesivat yhteisesti, että pre- ja postprintit eivät ole merkittäviä arkistojen sisällössä. Niiden julkaisemiselle voisi olla enemmän tilausta ajan myötä; otettiin esimerkki lehdistä, joissa artikkelien jonotusaika on pari vuotta – luulisi preprintin julkaisemisen silloin kiinnostavan kirjoittajaa.

Jos ei ole metadataa, ei kannata digitoida (ALA, 4.posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

Digitaalisten aineistojen hallinta – säilyttämisen näkökulma. Aiheesta olivat puhumassa Janet Gertz Columbian yliopistosta; Robin Wendler Harvardin yliopistosta; sekä Joseph JaJa Marylandin yliopistosta. Metadata, metadata, metadata, siinäpä tiivistetysti näiden asiantuntijoiden sanoma – josta sanomasta kyllä hieman kiisteltiinkin.

Janet Gertzin esityksestä jäi ennen kaikkea mieleen valinnan merkitys: digitoinnin mielekkyys ja onnistuminen on digitoitavan aineiston onnistuneen valinnan varassa. Se on elintärkeää toiminnan tehokkuden kannalta; ei vain niin, että muuten digitointi on hidasta ja kallista vaan jopa niin, että tuotettu aineisto on käytännöllisesti katsoen hyödytöntä.

Valinnan ensi askel on taas kohdeyleisön määrittely, koska se ohjaa monia digitoinnin kuluessa tehtäviä päätöksiä. Hänellä oli esimerkkinä vanha geologisten valokuvien kokoelma. Niitä voidaan käsitellä aineistona, jolla on merkitystä geologeille; mutta toisaalta kuvissa näkyy paljon sellaista, jolla on historiallista ja kulttuurista merkitystä geologian ulkopuolella. Pidetäänkö kohdeyleisönä esim. suurta yleisöä, jolle kuvilla on paikallishistoriallista arvoa?

Edelleen valinnassa on otettava huomioon aineiston laatu ja kunto. Tyypillinen esimerkki ongelmallisesta aineistosta siinä suhteessa ovat suttuiset sinikopiot ja sen sellaiset. Jos sisällöstä ei saa selvää, miksi digitoida?

Monia muitakin aspekteja on, esim. kriittinen massa vs ainutkertaisuus. Kannatttaako digitoida halpaa paperista pyhimyksenkuvaa? Ei, mutta laaja kokoelma halpoja paperisia pyhimyksenkuvia onkin tutkimuksen kannalta merkittävä ja siksi digitointi kannattaa. Toisaalta jokin uniikki kirja tms. kannattaa digitoida yksittäisenäkin.

Ja sitten se metadata. Metadataa ei koskaan voi olla liikaa! Gertz tähdensi. Jos aineisto ei ole hyvässä järjestyksessä ja kunnollisesti kuvailtu, älä edes uneksu digitoivasi sitä!

Tästä sitten vähän keskusteltiinkin. Gertzillä oli varoittavana esimerkkinä kokoelma luonnospiirustuksia, joista ei ollut kunnon metadataa. Yleisöstä kysyttiin, mitä mielekästä metadataa niistä voisi olla, keskenään samannäköisistä saman aiheen luonnoksista. Mikään sanallinen kuvailu ei olisi hyödyllinen, vaan käyttö perustuisi kuitenkin kuvien katseluun. Ongelma ei siis kenties ollut metadatan puute vaan esikatselukuvien puute. No, Gertzhän oli tähdentänyt myös aineiston järjestystä, mikä taas tässä tapauksessa oli elintärkeää. Jos aineistoja kuvaillaan vain kokoelmatasolla, kokoelmien pitää olla järkeviä (tai noudattaa fyysisen aineiston säilytystapaa). Ja edelleen: sitä merkittävämpää on kokoelmatason kunnollinen luettelointi

Digitaalisella objektilla tulee siis olla konteksti, ja metadata tarjoaa sen kontekstin. Saapuipa käyttäjä tarkastelemaan objektia mitä kautta tahansa, sen pitäisi esiintyä kontekstissaan; tämä asettaa sitten tiettyjä vaarimuksia esim. käyttöliittymälle.

Robin Wendlerin esitys heijasteli samaa ajattelutapaa. Hän korosti metadatan oikea-aikaista keruuta: osa metadatasta on sellaista, että se on välttämätöntä kirjata tietyssä prosessin vaiheessa, tai se menetetään kokonaan. Tällaista on esim. digitoinnissa käytettyjä asetuksia koskeva tieto. Toinen seikka, jota Wendler korosti – ja jossa kuulema usein laistetaan – on digitoinnin laadunvarmistus. Huonona esimerkkinä oli Google, joka ei kai yritäkään valvoa laatua, ja esimerkkejä sotkuista onkin sen digitoimissa kirjoissa helppo löytää.Niiden korjaaminen olisikin sitten aikamoinen haaste.

Joseph JaJa esitteli ADAPT-hanketta (An Approach to Digital Arciving and Preservation Technology) ja ACEa (Auditing Control Environment).

ADAPT on monikerroksinen digitaalisten aineistojen hallinnan arkkitehtuurikonsepti, jonka ympärille on keitetty myös avoimen lähdekoodin työkaluja. Siitä on pyritty rakentamaan sellainen, että se sopeutuu hyvin erilaisiin toimintaympäristön muutoksiin. Hanke on vielä kokeiluvaiheessa, ja kehitetyt työkalut ovat vielä hieman tiskin alla. (Tätä kirjottaessani hankkeen demotkaan eivät oikein tunnu toimivan.)

ACEn tarkoitus on automatisoida säilytettävien tiedostojen integriteetin valvonta. Sekin on vielä kehittelyvaiheessa.

Metadataa itsestään ja ilmaiseksi (ALA, 3. posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

Lauantaiaamun MARC-pläjäyksen jälkeen siirryin enemmän oman alan esitykseen, jonka piti Patrick Yott, Brown Universityn digitaalisten palveluiden päällikkö. Aiheena oli metadatan luominen automaattisesti avoimen lähdekoodin ohjelmistoja käyttäen.

No, itse asiassa voimme ylpeinä todeta, että johan tuota meillläkin tehdään suorastaan rutiininomaisesti, ja esityksessä esitellyt ohjelmistotkin olivat aikas tuttuja. Tässä ja muissakin myöhemmin blogattavissa esityksissä omatuntoa soimasi lähinnä se, kuinka paljon muualla on pantu aikaa suunnitteluun, dokumentointiin, toimintatapojen yhdenmukaistamiseen ja muuhun sellaiseen, joka ohjaa digitaalisten aineistojen hallintaa pois projektimaisuudesta ja kohti pysyvää toimintaa. Miksi meillä ollaan enemmän lastuna lainehina ja tehdään asioita sitä myöten kuin eteen osuu – ei välttämättä huonosti mutta vähän veitsi kurkulla -meiningillä -, siihen on monia syitä, joihin toivottavasti ennätän jossakin vaiheessa palata.

Ikävä kyllä ohjelmistot – ainakaan avoimen lähdekoodin ohjelmistot – eivät vielä ihan osaa sisällönkuvailua ja asasanoitusta. Esitys koskikin ennen kaikkea nk. teknisen metadatan keräämistä. Tekninen metadata on tarpeen ennen kaikkea digitaalisissa kokoelmissa, joissa aineiston käyttö ja säilyminen on suurelti kiinni siitä, että tiedämme, miten aineistoa tulee käyttää.

Luetteloijat ovat niukkuusvaranto, ja digitaalisten aineistojen tekninen luettelointi on joka tapauksessa tehtävä, joka ei ole käsin tehtävissä, sen verran isoista datamääristä on kysymys. Yott otti esimerkiksi 24-sivuiden lehden, josta jokainen sivu tallennetaan tiff-tiedostona sekä kolmena erikokoisena jpeg-tiedostona. Tuloksena on 96 tiedostoa, joista kaikista tarvitaan teknistä metadataa. Lisäksi tarvitaan rakenteellista metadataa eli tietoja siitä, miten eri tiedostot suhtautuvat toisiinsa: mitkä ovat saman sivun kuvia, ja missä järjestyksessä sivujen kuuluu olla.Tähän pitää vielä lisätä käyttöoikeuksia koskeva tieto, sekin perimmiltään tiedostokohtaista sekä kuvien esittämistä käyttöliittymässä koskeva tieto.

Eikä tässä vielä kaikki! Vielä on tarvis säilyttämisen mahdollistava metadata. Tieodostot on pystyttävä luotettavasti identifioimaan ja niissä tapahtuvat muutokset kirjaamaan.

Brown Universityssä on periaatteena, että kaikista digitaalisista objekteista on olemassa kuvailu METS-formaatissa. Lisäksi yhtenäisyyden vuoksi eri lähteistä tulevat sisällönkuvailut muunnetaan MODSiksi, vaikka METS periaatteessa sallii erilaisten sisällönkuvailujen upottamisen.

Kaikki METS-tietueen sisältämä tekninen metadata kerätään sitten automaattisesti. Yotts esitteli lähemmin kolmea avoimen lähdekoodin ohjelmistoa, joita Brownissa on käytetty.

mp3::info – lukee mp3-tiedostojen headereita
ExifTool – kerää teknistä metadataa lukuisista tiedostomuodoista
JHOVE – paitsi kerää metadataa, voi validoida tiedostoja erilaisiin profiileihin verraten

Muutenkin Yotts suositteli lämpimästi CPANia, josta on saatavilla suuri joukko Perl-skriptejä eri tarkoituksiin; kaksi ensin mainittua apuvälinettä on toteutettu Perlillä, JHOVE Javalla.

Isot Amerikan kirjastot ovat ennenkin tehneet aika paljon työvälineitä itse. Kun avoimen lähdekoodin projekteja poikii lisää, ne ovat siinä onnellisessa asemassa, että niillä on paljon osaavaa väkeä töissä, joka pystyy hyödyntämään lisääntyvää tarjontaa. Kansalliskirjasto lähestyy esimerkiksi pitkäaikaissäilytystä ihan toisenlaisesta tilanteesta ja toisenlaisin resurssein, mutta kyllä esim. DSpace-projekti on jo osoittanut kollektiivisen kehittämisen vahvuuksia – jos toki senkin, ettei ilmainen koodi kuitenkaan ilmaista ole. Avoin lähdekoodi ja sen mahdollisuudet pitää kyllä tarkasti ottaa huomioon, kun tehdään isoja tulevaisuuden ratkaisuja. Paras tietenkin olisi jos softatoimittajat osaisivat rakentaa houkuttelevia tarjouksia avoimen lähdekoodin varaan. Kaikkea ei tarvitsisi tehdä itse, mutta vapaus omiinkin kehitysprojekteihin olisi olemassa.

Marc, hän elää! (ALA, 2. posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

56 miljoonan tietueen pyörittelyn jälkeen esiintyi Sally McCallum, joka on Kongressin kirjaston MARC-toimiston päällikkö eli MARCin ylimmäinen papitar. Hänen tulevaisuudenvisioissan MARC tarkoitti lähinnä MARCin dataelementtejä. Kun niistä säilyy yhteisymmärrys, voi niiden käyttö erilaisissa toiminnallisissa ja teknisissä ympäristöissä laajentua ja rikastua. XML esiintyi esityksessä monen monta kertaa avaimena tuohon laajentumiseen ja rikastumiseen.

Esityksen kalvot ovat nähtävissä osoitteessa http://www.mcdu.unt.edu/wp-content/
ALA2007McCallumMARCFutures.pdf

Callum jakoi esityksensä yhdeksään osa-alueeseen, joissa hän tarasteli MARCin tilaa eri näkökulmista: (1) MARC ja XML; (2) hienojakoisuus; (3) monikäyttöisyys; (4) laajennettavuus; (5) hierarkioiden tuki; (6) käännettävyys; (7) työkalut; (8) hallintayhteistyö; ja (9) pysyvyys.

Myös McCallum viittasi Los Alamosin johtopäätöksiin MARCista ylätason yhdistävänä, tuottajaneutraalina formaattina. Mutta Los Alamosin valinta oli siis MARCXML, jossa MARCin kentät ja muut ominaisuudet esitetään XML-syntaksissa. MARCXML:n rinnalla on käytettävissä myös MODS (Metadata Object Description Schema), jossa käytetään vain osaa MARCin kentistä ja jossa kentillä on hieman kuvaamammat nimet kuin MARCin numerot.

McCallum piti XML:ää luonnollisesti hyvänä tapana ilmaista MARCin dataelementtejä; XML-maailmaan tosin luultavasti yleistyy jonkinlainen laihdutettu versio MARCXML:stä. Hän muistutti, että XML:kin on joka tapauksessa vain tämän hetken yleiskieli.

MARCin hienojakoisuudesta – ne 2 000 kenttää – McCallum totesi, että hallinnolle ja rahakirstunvartijoille voi joskus olla hieman hankala selittää, mihin kaikkea tätä hienostusta tarvitaan. Hienostus kun tarkoittaa sitä, että jäsentäminen on työlästä.

Koodatulla datalla on omat hyvät puolensa – varsinkin se, että se toimii yli kielirajojen – mutta toisaalta se vaatii taas ominaisuuksia järjestelmiltä, joissa MARCia käytetään hyväksi.

Systeemin keventäminen on kuitenkin hyvin vaikeaa MARCin laajan käyttäjäkunnan takia. Kerran käyttöön otetun kentän poistaminen aiheuttaa hankaluuksia, ja konsensuksen saavuttaminen toimenpiteistä on aika lailla mahdotonta.

Monikäyttöisyyden suhteen puhuja korosti MARCin riippumattomuutta kuvailusäännöistä sekä sitä, että sallii sekä yksinkertaisen että hyvin monimutkaisen käytön. Tulevaisuudessa saatetaan nähdä enemmän sovellusprofiileja – itse asiassa MODSkin on vain eräs sovellusprofiili. Kenties tarvitaan esim. FRBR:n “teosta” varten oma profiili? Edellisiin puhujiin vittasi ajatus profiilien luomisesta tilastollisen datan avustuksella.

Marcin sopeutuvuudesta McCallum otti esimerkiksi UNIMARCIN ja erilaisten URIen luetteloinnin mahdollisuuden. Sen sijaan ei liene järkevää yrittää mahduttaa kaikkia digitaalisen aineiston edellyttämiä, ylläpidon ja käytön mahdollistavia kuvailutietoja MARCiin vaan järjestää linkitys MARCista muihin tarpeellisiin tietueisiin (PREMIS, METS, yms.)

Uudenlaisia käyttötapoja MARCille näyttäisi olevan muodostumassa esim.museoiden ja muiden kulttuurilaitosten piirissä.

Uudenlaiset hierarkian muodot lienevät tarpeellisia. MARCXML:ssä on jo lisätty käsite “collection”, joka tarkoittaa useamman tietueen sisältävää

Käännettävyydestä puhuessaan McCallum esitteli olemassa olevia työkaluja, mutta totesi, että niiden tarjonnassa alkavat rajat tulla vastaan. Konversiotaulut eivät ole kertakeikkoja, vaan niiden ylläpitoon menee joltisestikin resursseja. Tähän liittyen hän listasi myös olemassa olevia työkaluja – mm. “USEMARCON from Europe” – ja uskoi, että jatkossa käytettävissä on runsaasti avointa lähdekoodia varsinkin XML-muotoisen MARCin käsittelyyn.

MARCin kehittämisessä on mukana monta kokkia – kansalliskirjastoja ja liuta erilaisia komiteoita – mikä luo omat haasteensa. Toisaalta se heijastelee sitä, että MARC on maailmanlaajuisesti käytetty, ja MARC-tietueita on maailmassa ainakin miljardi. MARCilla on siis uskottavuutta formaattina, joka on ja ennen kaikkea pysyy. Mutta MARCinkin pitää juosta pysyäkseen paikallaan, ja XML on tällä hetkellä se, jonka mukaan MARCin on ojentauduttava; ja sitä kautta onkin tarjolla uudelaista joustavuutta ja sovellusmahdollisuuksia.

Minne menet, Marc? – osa 1 (ALA, 1. posti)

Posted on 25.6.2007 by Esa-Pekka Keskitalo

Tässä ja seuraavissa postauksissa kerron vaikutelmista American Library Associationin (ALA) vuositaisessa suurkonferenssissa. – Lauantaiaamu alkoi reippaasti kello 8 aiheella, jonka kanssa en ole ihan sinut: MARC. Mutta kun metadata-asiat kuitenkin ovat lähellä sydäntä ja osa jokapäiväistä työtä, niin lyöttäydyin kuuntelemaan esitystä MARCin tulevaisuudesta. Tästä on toivottavasti ainakin se hyöty, että kun kirjoitan läpiä päähäni, asiantuntijat voivat innostua kommentoimaan. Näin syntyy siunauksellista sosiaalista vuorovaikutusta kirjasto 2.0:n hengessä.

Mikä se MARC on? Jos ken ei tiedä, niin luekoon täältä: http://www.lib.helsinki.fi/kirjastoala/formaatti/yleista.htm (Jatkossa tulee vielä lisää ammattijargonia, jota kaikkea en voi tässä käydä selittämään.)

Päinvastoin kuin monet tietotekniikan päivänperhot, MARC on ollut olemassa jo jonkin aikaa, nimittäin vuodesta 1966. Se on maailmanlaajuisessa käytössä, ja monissa maissa se muodostaa koko kirjastotoiminnan selkärangan. Formaattia 20 vuotta nuorempia nörttejä jotkut sen antiikkiset pirteet saattavat hätkähdyttää, mutta toimeen on tultu ja nähtävästi tullaan vielä pitkään.

MARC-esityksen ensimmäinen osa esitteli tutkimustuloksia siitä, miten MARCia todella käytetään luetteloinnissa. Esityksen aloitti William Moen, joka, samoin kuin esitystä jatkanut Shawne Miksakin, työskentelee Pohjois-Texasin yliopistossa.

Jos amatöörin sekava selostus alla hermostuttaa, niin esityksen kalvot ovat saatavilla (http://www.mcdu.unt.edu/wp-content/ALA2007Moen22June2007.pdf) samoin kuin oheismoniste, jossa on kovia numeroita pureksittavaksi (http://www.mcdu.unt.edu/wp-content/
ALA2007ProgramHandout22June2007.pdf).

Miksi sitä tutkitaan? MARC on kestänyt aikaa hyvin, mutta digitaalisen informaatioympäristön vallankumous on kuitenkin vaikuttanut myös MARCin asemaan ja tulevaisuudennäkymiin. Sen “markkinaosuus” on pienenemään päin. Ensinnäkään kirjastoissa ei selvitä enää pelkän MARCin varassa, kun tarvitaan uusia metadatan lajeja – teknistä, hallinnollista jne. Myös varsinaisessa bibliografisessa kuvailussa on vaihtoehtoja (Dublin Core yms.) Toiseksi kirjastojen rooli informaatiomarkkinoilla ei ole enää yhtä määräävä kuin ennen. Ennen kaikkea kirjastoluettelot eivät ole enää se akseli, jonka ympärille kaikki tiedonhakutehtävät kiertyvät. Yhteensopivuuden, muunneltavuuden ja uudelleenkäyttämisen vaatimusien kannalta MARC ei ole kaikkein helpoin tapaus. Tämä kehitys herättää kysymyksiä nykyisten luettelointikäytäntöjen kustannustehokkuudesta.

Toisaalta tutkimuksella voidaan nimenomaan tehostaa MARCin hyväksikäyttöä. Hyvä esimerkki on funktionaalinen luettelointi, FRBR (ks. http://www.lib.helsinki.fi/tietolinja/0205/frbr_franar.html) Olemassolevan MARC-datan tuntemus on tarpeen, jotta datan “kääntäminen” FRBR-malliin onnistuu mahdollisimman hyvin. Samalla nähdään myös, mihin suuntaan luettelointikäytäntöjä olisi kehitettävä, jotta ne tukisivat myös funktionaalista luettelointia.

MARC on tavattoman rikas, toisin sanoen monimutkainen formaatti. Siinä on noin 2 000 kenttää (jolla tarkoitan mtös alakenttiä). Kunnianarvoisa perinne on ollut lisätä kenttää kentän päälle: vuonna 1972 kenttiä oli vielä vain 278.

Rikkaus on monimutkaisuutta, mutta monimutkaisuus voi olla rikkautta. Los Alamos National Laboratory totesi taannoin, että MARC on ehdottomasti paras vaihtoehto yhteiseksi formaatiksi mammuttimaisessa projektissa, jossa piti yhtenäistää noin 100 miljoonaa eri tahoilta kerättyä kuvailutietuetta – tosin valituksi tuli MARCXML, fromaatin esitystavaltaan modernisoitu versio (ks.http://www.dlib.org/dlib/september06/
goldsmith/09goldsmith.html)

Aiemmassa tutkimuksessa on havaittu, että 4% kaikista kentistä sisälsi 80% kaikista kirjauksista. Nyt otettiin tutkittavaksi OCLC:lta saadut 56 miljoonaa tietuetta. Näistä 15% eli 8 miljoonaa oli Kongressin kirjaston tuottamia, ja niitä tutkittiin osittain omana ryhmänään.

Kongressin kirjaston tietueissa 80% kirjauksista esiintyi 14:ssä eniten käytetyssä kentässä (8,3%); 90% kirjauksista esiintyi 21:ssä eniten käytetyssä kentässä. Kaksi kolmasosaa kentistä on sellaisia, että niissä on kirjauksia alle prosentissa tietueista.

Tietueita oli siis 8 miljoonaa; eniten käytetty kenttä on 650 (asiasana), jossa on aineistossa lähes 12 000 000 kirjausta yli 5 miljoonassa tietueessa. Yhden ainokaisen kerran Kongressin kirjasto on käyttänyt kenttää 656 (ammatti, jota aineisto käsittelee).

Allekirjoittaneen puutteet niin MARCin kuin FRBR:nkin sisällisessä tuntemuksessa alkoivat vaivata siinä vaiheessa, kun Shawne Miksa esitteli tutkimuksen merkitystä FRBR:n kannalta. Tietueita oli tarkasteltu neljän tiedonhakutoiminnon kannalta – haku, tunnistus, valinta ja nouto (find, identify, select, obtain). Kunkin osa-alueen kannalta oleelliset kentät tunnistettiin aiempiin analyyseihin tukeutuen. Tämän lisäksi tarkasteltiin sitä, mitkä kentät kuuluivat 80/20-kynnyksen ylittäviin kenttiin eli niihin, joissa esiintyi 80% kaikista kirjauksista. Tunnistamista tukee 82 kynnyksen ylittävää kenttää, hakua 61, noutoa 37 ja valintaa 29.

Hienoinen antikliimaksi oli sitten tulosten tulkinta; niitä ei tulkittu. Pikemminkin yleisöltä pyydettiin tulkintoja ja ehdotuksia siitä, mitä jatkossa pitäisi tarkastella. Maallikosta tuntui, että yksi tulkinta on se, että MARCissa on kovasti paljon ilmaa, kun mitättömän vähän käytettyjä kenttiä on niin viljalti. Mutta kuten saatoin ounastella, keskustelussa korostettiin, että kaikki ovat erilaisia mutta yhdenvertaisia ja että jokin vähän käytetty kenttä voi olla tosi tärkeä jonkin kirpunkokoisen kirjaston toiminnassa, joten siitä ei voi mitenkään luopua.

Aika vihjailevasti Miksa kyllä kysyi, pystyvätkö kuulijat perustelemaan nykyisiä MARC-käytäntöjään kustannustehokkuuden kannalta. Vaihtoehtona hän esitti “arvokasta, tehokasta, laadukasta dataa harvoissa kentissä”.

Sen konkreettisen seikan datan analyysi kyllä paljasti, että sovellusohjeet ja jokapäiväinen luettelointi eivät aina oikein kohtaa. Tutkimuksessa oli näet tarkasteltu Core Records Standards -ohjeiden ja kenttien todellisen käytön yhteyttä ja havaittu selkeitä viitteitä siitä, että käytännössä ohjeista poiketaan säännöllisesti. En osaa sanoa, tuliko tämä kenellekään yllätyksenä tai luuraako Suomessa kenties vastaavia ongelmia – jos kyseessä nyt edes on mikään ongelma.

ETD 2007 (4): Esimerkkejä maailmalta

Posted on 21.6.2007 by Jyrki Ilva

[Tämä merkintä liittyy Uppsalassa 13.-16.6.2007 järjestettyyn opinnäytteiden verkkojulkaisemista käsittelleeseen ETD 2007 -konferenssiin, ks. myös ensimmäinen merkintä]

Huippuyliopistossa kaikki on huippua?

Kuten tavallista, monet Uppsalassa kuulluista esityksistä tarjosivat enemmän tai vähemmän uskottavia visioita erilaisista hienoista järjestelmistä ja päämääristä, joita tulevaisuudessa aiotaan toteuttaa. Tätä kontekstia vasten oli piristävää kuunnella Craig Thomasin esitystä, jossa kerrottiin aivan rehellisesti mitä kaikkea Massachusetts Institute of Technologyn väitöskirjajulkaisemissa oli mennyt vuosien varrella pieleen. MIT:n opinnäytejulkaisut ovat saaneet paljon julkisuutta, ja olen kuullut väitettävän, ettei yliopistossa enää olisi väitöskirjojen printtiversioita ollenkaan.

Thomasin mukaan yliopiston alkuperäinen elektronisten väitöskirjojen julkaisemista varten tarkoitettu järjestelmä kaatui, kun yliopisto joutui 2000-luvun alkuvuosina Internet-yhtiöiden osakekurssien romahdettua rahavaikeuksiin ja kolmasosa kirjaston henkilökunnasta irtisanottiin. Irtisanottujen joukossa olivat mm. kaikki julkaisujärjestelmän ylläpidosta vastanneet henkilöt. Syksyllä 2002 lanseeratusta DSpacesta tulikin MIT:n näkökulmasta eräänlainen pelastusvene, johon aiemman järjestelmän jäljiltä kodittomaksi jääneet digitaaliset dokumentit saatiin tallennettua (ks. MIT:n väitöskirjat DSpacessa). DSpacen valmiita syöttölomakkeita MIT ei sen sijaan ottanut käyttöön, vaan elektroniset väitöskirjat toimitetaan edelleen julkaistavaksi primitiivisemmillä menetelmillä.

MIT:n väitöskirjoista saadaan nykyään valmiiksi sähköisessä muodossa vain kymmenen prosenttia, ja loput skannataan kirjastossa paperiversiosta. Tällä hetkellä yliopisto tutkii mahdollisuuksia muualla kehitettyjen DSpace-työkalujen (mm. Manakin) käyttämiseksi tilanteen kohentamiseen ja elektronisten aineistojen tallentamisen helpottamiseen. Craig Thomas ei kuitenkaan ollut kovin toiveikas radikaalien muutosten suhteen: yliopisto koostuu lukuisista varsin itsenäisistä yksiköistä, joita on vaikea pakottaa omaksumaan yhtenäisiä käytäntöjä.

Yhteistyö on voimaa

Omalta kannaltamme kiinnostavimmasta päästä oli Adam Mikealin esitys Teksasin yliopistojen suunnittelemasta yhteisestä opinnäytekirjastosta (“Texas Digital Library“). Kansalliskirjaston Doriassa hyödyntämä Manakin-käyttöliittymäohjelmisto on peräisin nimenomaan Teksasista (ks. Samu Viidan matkaraportti Tietolinja-lehden numerossa 1/2007), ja Teksasissa on kehitetty myös osavaltion yhteistä MODS XML -skeemaa, joka sopisi erityisesti opinnäytteiden metadatan tallennukseen.

Teknisten edistysaskelten lisäksi Mikealin esityksessä oli huomionarvoista hankkeen laajuus ja sen takana oleva yhteinen poliittinen tahto: mukana olevissa teksasilaisyliopistoissa on yhteensä 65 kampusta ja yli 400 000 opiskelijaa. Tavoitteena on kuitenkin päästä hyvin keskitettyyn malliin, jossa kaikki opinnäytteet tallennetaan sähköisessä muodossa yhteiseen järjestelmään, ja niiden syöttämiseen käytetään yhtä yhteistä lomaketta. Yhteistä lomaketta pidettiin tarpeellisena, jotta metadata saadaan kerättyä ja tallennettua kaikista yliopistoista yhteensopivassa muodossa.

Plagiointia Amerikan malliin

Opinnäytetyössä tehty plagiointi on viime viikkoina taas kerran ylittänyt uutiskynnyksen myös Suomessa. Aihepiiriin tuntuu aina vain törmäävän kaikissa opinnäytejulkaisemiseen liittyvissä yhteyksissä, ja joskus tuntuu, että asia on saanut aivan liikaa huomiota vilppitapausten todelliseen määrään ja merkitykseen nähden. Juttelin konferenssin iltajuhlassa ProQuestin Austin McLeanin kanssa, ja hän kertoi että plagiointitapauksia tulee suurta opinnäytetietokantaa ylläpitävän ProQuestin tietoon parisenkymmentä vuosittain. Merkittävä osa tapauksista koskee vanhoja opinnäytetöitä, joita ProQuestin palvelussa on yhteensä kolmatta miljoonaa, eli kyseessä ei ole mikään erityisesti verkkoaikakauteen liittyvä ilmiö. Lisäksi on ilmeistä, että verkkojulkaiseminen on lisännyt merkittävästi kiinnijäämisen riskiä.

Minulta jäi valitettavasti väliin McLeanin ja Niamh Brennanin pitämä plagiarismia käsitellyt esitys (“Plagiarism and ETDs: Confronting the Reality”). Konferenssissa viitattiin kuitenkin useaan otteeseen Ohion yliopistossa Athensissa viime vuonna ilmitulleeseen plagiointitapaukseen, jossa kymmienien pääasiassa ulkomaalaistaustaisten opiskelijoiden epäiltiin syyllistyneen parin edellisen vuosikymmenen aikana plagiointiin. Tapauksen seurauksena kaksi töiden ohjaamisesta vastuussa ollutta yliopiston professoria sai lähteä.

[Takaisin ensimmäiseen merkintään]

ETD 2007 (3): Tieteellisen julkaisemisen tulevaisuus

Posted on 21.6.2007 by Jyrki Ilva

[Tämä merkintä liittyy Uppsalassa 13.-16.6.2007 järjestettyyn opinnäytteiden verkkojulkaisemista käsittelleeseen ETD 2007 -konferenssiin, ks. myös ensimmäinen merkintä]

Irti paperijulkaisemisen kaavoista

Torstain keynote speaker, kemian tutkija ja Cambridgen yliopiston lehtori Peter Murray-Rust kritisoi PDF:ää tallennusformaattina, ja samaan aiheeseen palattiin myös sekä saman iltapäivän käytettävyyteen paneutuneessa paneelikeskustelussa että seuraavan päivän tutkimusaineistoja käsitelleessä paneelikeskustelussa.

Adoben jo 1990-luvun alkupuolella lanseeraama PDF on hyväksytty opinnäytejulkaisemisessa eräänlaiseksi väliaikaisratkaisuksi, josta vähitellen siirryttäisiin aidommin digitaalisen maailman ja datan hyödyntämisen ehdoilla toimiviin, esim. XML-pohjaisiin formaatteihin. PDF:n valtakausi on kuitenkin osoittautumassa paljon odotettua pidemmäksi, ja sen mukana tieteellinen julkaiseminen näyttää yhä jääneen yllättävän sitkeästi kiinni paperiaikakauden ajattelutapoihin ja toimintamalleihin.

Opinnäytteiden muokkaamista SGML- tai XML-formaatteihin on toki tehty myös käytännössä joissakin yliopistokirjastoissa, etenkin Saksassa ja Suomessa Oulun yliopistossa, mutta toiminnan vaatima tekninen osaaminen ja sen oletettu kalleus ovat kuitenkin pitäneet käytännön soveltajien määrän pienenä. Tällä hetkellä näyttää pikemminkin siltä, että muutoksen on lähdettävä tutkijoista ja tieteenalojen sisäisistä julkaisukäytännöistä, jolloin myös kunkin tieteenalan erityistarpeita voidaan ottaa paremmin huomioon kuin kirjastojen tekemissä väistämättä melko geneerisissä formaattimuunnoksissa.

Perjantain paneelikeskusteluun osallistunut tanskalainen biokemisti Lars Juhl Jensen kertoi esimerkkejä siitä, miten konservatiivisia useimmat perinteiset tieteelliset lehdet ovat. Niiden editorit suhtautuvat yleensä nihkeästi pieniinkin julkaisemisen käytäntöjä tai tallennusformaatteja koskeviin muutoksiin.

Coalition for Networked Informationin johtaja Clifford Lynch jatkoi samasta teemasta perjantaina konferenssin päätössanoissa. Hänen mukaansa olemme tulossa pisteeseen, jossa monet perinteiset tieteellisen julkaisemisen käytännöt alkavat murtua. Perinteisissä lehdissä julkaistavien artikkelien kautta tapahtuva muodollinen akateeminen pätevöityminen näyttää vähitellen eriytyvän yhä kauemmaksi erilaisten uusien ja usein epämuodollisten väylien kautta tapahtuvasta tieteellisestä kommunikaatiosta, jolla on itse tieteenteon kannalta yhä suurempi merkitys.

Tieteellisten artikkelien tulevaisuuden lisäksi Lynch nosti esiin myös kysymyksen tieteellisten monografioiden tulevaisuudesta. Monografioiden julkaiseminen ei ole kansainvälisellä tasolla enää taloudellisesti kannattavaa toimintaa, sillä myyntiluvut ovat yleensä melko pieniä. Käytännössä tämä tarkoittaa sitä, että esim. väitöskirjojen pohjalta muokattuja monografioita on yhä vaikeampi saada julkaistaviksi, etenkin jos ne käsittelevät suuren yleisön näkökulmasta marginaalisia aiheita.

Erityisesti humanistisella ja yhteiskuntatieteellisellä alalla monografioita pidetään kuitenkin edelleen tärkeänä asiana, ja niiden julkaisemista pyritään jatkamaan ongelmista huolimatta. Yhtenä mahdollisena tulevaisuuden mallina Lynch mainitsi American Historical Associationin Gutenberg-E-projektissa toteutettujen verkkokirjojen kaltaiset ratkaisut (Gutenberg-E:n taustasta ks. myös hanketta ideoimassa olleen kirjahistorioitsija Robert Darntonin haastattelu Ennen & Nyt –lehdessä 1/01). Suomalaisesta näkökulmasta on ehkä huomionarvoista, että Gutenberg-E:n julkaisut on muokattu nimenomaan valmiiden, hyväksyttyjen väitöskirjojen pohjalta: väitöskirjat sinällään ovat ainakin täällä Suomessa pysyneet formaatiltaan varsin konservatiivisina oppineisuuden osoituksina, joissa ei ole juuri uskallettu tehdä julkaisun muotoon liittyviä kokeiluita.

Lynch pohti myös julkaisujen ja dokumenttien rajojen merkitystä esim. interaktiivisuutta koskevien web 2.0 –henkisten toiveiden kannalta. Haluavatko kaikki tutkijat todella käydä loputtomia keskusteluita julkaisujensa sisällöstä? Jossain vaiheessa on kuitenkin hyvä saada työ loppuun ja siirtyä muiden aiheiden pariin. Lynch piti tärkeänä kysymyksenä myös sitä, missä kulkevat itse julkaisun ja siihen liittyvän taustamateriaalin väliset rajat.

Tutkimusdata ja julkaisuarkistot

Perjantain paneelikeskustelussa käsiteltiin erityisesti tutkimusdataa ja sen tallentamista, joka on ollut muutenkin ajankohtainen teema viime aikoina. Paneelikeskustelun osallistujat näyttivät pitävän laajoja alakohtaisia arkistoja ja tutkijoiden yhteistyössä tuottamia datapankkeja hajautettuja organisaatiokohtaisia julkaisuarkistoja mielekkäämpänä ratkaisuna. Kun oman alan data on saatavilla keskitetysti (ja mahdollisimman avoimesti) yhdestä paikasta, sitä on helpompi hyödyntää mm. tiedon louhintaan.

Datan määrän kasvu on luonnontieteissä huimaa: esim. biokemiassa kertyi pelkästään vuoden 2006 aikana enemmän uutta dataa kuin koko tieteenalan aiemman historian aikana yhteensä. Valtavien tietomassojen hallinnasta ja tutkijoiden välisestä datan jakamisesta onkin tullut tieteenalan keskeisiä menestystekijöitä. Tekijänoikeuslainsäädännön ja kustantajien kaupallisten intressien tiedon vapaalle hyödyntämiselle asettamista esteistä on kuitenkin edelleen paljon harmia.

Yleisön joukosta tulleessa kommentissa todettiin, että tutkijat haluavat päästä käsiksi nimenomaan suoraan dataan, eivätkä he ole niinkään kiinnostuneita sen pohjalta muodostetuista valmiista näkymistä tai jonkin ulkopuolisen tahon (lue: kirjastot?) tarjoamista käyttöliittymistä. Murray-Rust kritisoi myös DSpacen kaltaisten järjestelmien tapaa kätkeä data yksittäisinä palasina metadataa sisältävien sivujen taakse. Clifford Lynch huomautti, että kehitteillä oleva ORE-protokolla (joka mahdollistaa metadatan lisäksi myös julkaisuarkiston sisältämien dokumenttien haravoimisen) saattaa auttaa jossain määrin auttaa tähän ongelmaan.

Julkaisemisen työnjako

Clifford Lynch muisteli päätössanojensa yhteydessä 15 vuoden takaista tilannetta, jolloin yliopistojen IT-väki, kirjastot, yliopistopainot ja tiedekuntien edustajat kokoontuivat yhdessä miettimään digitaalisen maailman haasteita. Tuolloin kirjastot vielä empivät, uskaltavatko ne ottaa vastuuta elektronisten aineistojen säilyttämisestä.

Nykynäkökulmasta tarkasteltuna yliopistojen IT-palvelut ovat muuttuneet julkaisemisen kannalta lähes läpinäkyviksi, ja hyvä kysymys on myös se, miten kirjastojen rooli tulee kehittymään. Vaikka kirjastot ovat olleet etulinjassa opinnäytteiden julkaisemisessa ja myös julkaisuarkistojen perustamisessa, saattaa olla että laitosten ja yksittäisten tutkijoiden rooli kasvaa tulevaisuudessa. Esim. Murray-Rustin ja Jensenin esittelemien kemistien ja biokemistien käyttämien XML-pohjaisten merkintäjärjestelmien hyödyntäminen taitaa vaatia sellaista alakohtaista asiantuntemusta, ettei sitä useimmista kirjastoista löydy. Laitosten ja tiedekuntien henkilökunta pitäisi siis saada paremmin integroitua mukaan miettimään julkaisemisen ja julkaisupalveluiden kehittämistä.

Kansainvälisten alakohtaisten datapankkien perustaminen poikkeaa myös kirjastojen perinteisestä toimintaideasta nimenomaan omia paikallisasiakkaitaan palvelevana organisaationa. Toisaalta tämä liittyy suurempiin kirjastojen identiteettiä ja tulevaisuutta liittyviin kysymyksiin. Kuten klassillisen filologian tutkija Greg Crane totesi omassa torstaisessa keynote-esitelmässään, kirjastot ovat perinteisesti hankkineet muiden tuottamaa valmista ja sisällöltään pysyväksi oletettua aineistoa paikallisasiakkailleen. Digitaalisessa maailmassa tämä toimintamalli on joka tapauksessa jossain vaiheessa menneisyyttä, ja perinteisen paperimaailman tarpeita varten rakennetun kirjaston tilalle saatetaan tarvita kokonaan uudenlaista infrastruktuuria.

[Jatkuu seuraavassa merkinnässä]

ETD 2007 (2): Kansainvälistä yhteistyötä

Posted on 21.6.2007 by Jyrki Ilva

[Tämä merkintä liittyy Uppsalassa 13.-16.6.2007 järjestettyyn opinnäytteiden verkkojulkaisemista käsittelleeseen ETD 2007 -konferenssiin, ks. myös ensimmäinen merkintä]

Opinnäytteet vs. julkaisuarkistot

Konferenssin ensimmäisenä päivänä pidettiin pääasiassa Euroopan tilanteeseen keskittynyt workshop, jossa esiteltiin yhteiseurooppalaisia GUIDE– ja DART-Europe -projekteja. Projektien aktiivit päätyivät toteamaan, ettei yhteisten hankkeiden edistys ollut kaikilta osin toivottua tasoa: eri maiden ETD-ihmisiä näyttää olevan vaikea motivoida mukaan yhteiseen toimintaan.

Tämän masentavan huomion myötä Gerard van Westrienen (SURF Foundation, Hollanti) käänsi keskustelun pohdiskeluksi siitä, ovatko eurooppalaiset opinnäytteet sellainen erityisala, jonka ympärille voidaan rakentaa toimintaa, vai kannattaisiko niitä käsitellä osana laajempia julkaisuarkistojen (institutional repository) perustamiseen liittyviä kysymyksiä. Julkaisuarkistoihin liittyviin projekteihin olisi todennäköisesti helpompi saada rahoitusta esim. EU:lta. Yleisön mielipiteet jakautuivat, eikä suurella osalla (minä mukaan lukien) näyttänyt olevan ainakaan äkkiseltään kovin vankkoja mielipiteitä suuntaan tai toiseen.

NDLTD:n johtaja, Virginia Techin tietojenkäsittelytieteen professori Edward Fox muistutti omassa hengenluontipuheessaan siitä, että julkaisuarkistojen saaminen liikkeelle on osoittautunut monissa tapauksissa mutkikkaaksi, kun taas opinnäytteiden kanssa on usein helpompi päästä eteenpäin ja saada aikaan konkreettisia tuloksia.

“Simple Dublin Core is not enough”

Etenkin ensimmäisen päivän projektiesittelyissä tuli esiin jo ennestään tuttu näkemys siitä, että opinnäytteitä ja muitakin julkaisuarkistomateriaaleja varten tarvitaan unqualified Dublin Corea rikkaampia kuvailuformaatteja. Erityisen suuria toiveita kohdistuu EPrints Application Profileen (ks. artikkeli Ariadnen tammikuun numerossa), josta toivotaan eräänlaista paikallisesti ja kansallisilla tasoilla käytössä olevia kuvailuformaatteja yhdistävää kattoformaattia.

Edward Fox toi toisaalta keskustelussa esiin sen, että myös NDLTD:n oma, vuosia sitten opinnäytteitä varten kehitetty metadataformaatti kaipaisi laajentamista ja päivittämistä, eli tätäkään työtä ei ehkä kannata tehdä pelkästään eurooppalaisesta näkökulmasta. Samalla olisi tietysti hyvä, jos kansainvälisiä metadataformaatteja laadittaessa voitaisiin ottaa huomioon myös pohjoismaisten artikkeliväitöskirjojen kaltaiset paikallisten julkaisukulttuurien erikoispiirteet.

[Jatkuu seuraavassa merkinnässä]

ETD 2007: Opinnäytejulkaisemista Uppsalassa

Posted on 21.6.2007 by Jyrki Ilva

Opinnäytteiden julkaiseminen verkossa on yleistynyt maailmanlaajuisesti 1990-luvun puolivälistä lähtien. Mutta missä tällä hetkellä mennään ja millaisia ovat julkaisutoiminnan tulevaisuuden haasteet? Tästä sai hyvän kuvan Uppsalassa 13.-16.6.2007 järjestetyssä NDLTD:n vuosittaisessa opinnäytejulkaisemista käsittelevässä konferenssissa.

Uppsalan konferenssin rinnakkaisissa sessioissa pidettiin kymmeniä esityksiä, joista kuulin vain kolmasosan. Oheisiin merkintöihin on poimittu joitakin omia tulkintojani keskeisistä päivien aikana käsitellyistä teemoista sekä muutamia muita mielenkiintoisia huomioita yksittäisistä esityksistä:

ETD 2007(2): Kansainvälistä yhteistyötä

ETD 2007(3): Tieteellisen julkaisemisen tulevaisuus

ETD 2007(4): Esimerkkejä maailmalta

NDLTD eli viralliselta nimeltään Networked Digital Library of Theses and Dissertations on kansainvälinen järjestö, joka pyrkii edistämään nimenomaan opinnäytteiden verkkojulkaisemista. Tämänkertainen, nelipäiväisenä järjestetty ETD 2007: Added Values to E-theses oli mukavan pieni, erittäin kansainvälinen ja teemojensa puolesta suhteellisen hyvin fokusoitunut konferenssi. Osanottajia oli mukana puolentoista sataa yhteensä 37 maasta ja viidestä maanosasta. Vaikka konferenssi oli tällä kertaa näinkin lähellä, Suomesta oli Kansalliskirjaston joukkueen (minä ja Jussi Piipponen) lisäksi koko seminaarin ajan paikalla vain kansainvälisen ETD-yhteistyön veteraaneihin lukeutuva Rita Voigt TKK:lta.

Kokonaisuutena ETD 2007 oli oikein viihdyttävä konferenssi, jossa myös virallisen ohjelman ulkopuolella tapahtuvalle sosiaaliselle verkostoitumiselle (ja Uppsalan nähtävyyksiin tutustumiselle) jäi riittävästi aikaa. Seuraava ETD-konferenssi pidetään Aberdeenissa 4.-7. kesäkuuta 2008. Toivottavasti sinne saadaan Suomestakin mukaan runsaampi edustus

[Jatkuu seuraavassa merkinnässä]

Digitaalinen kirjasto

Kansalliskirjastolaisten kirjoituksia digimaailman ja kirjastojen ajankohtaisista ilmiöistä

Monthly Archives: June 2007

OhioLink (ALA, 6.posti)

Kuka julkaisisi julkaisuarkistossa? (ALA, 5, posti)

Jos ei ole metadataa, ei kannata digitoida (ALA, 4.posti)

Metadataa itsestään ja ilmaiseksi (ALA, 3. posti)

Marc, hän elää! (ALA, 2. posti)

Minne menet, Marc? – osa 1 (ALA, 1. posti)

ETD 2007 (4): Esimerkkejä maailmalta

Huippuyliopistossa kaikki on huippua?

Yhteistyö on voimaa

Plagiointia Amerikan malliin

ETD 2007 (3): Tieteellisen julkaisemisen tulevaisuus

Irti paperijulkaisemisen kaavoista

Tutkimusdata ja julkaisuarkistot

Julkaisemisen työnjako

ETD 2007 (2): Kansainvälistä yhteistyötä

Opinnäytteet vs. julkaisuarkistot

“Simple Dublin Core is not enough”

ETD 2007: Opinnäytejulkaisemista Uppsalassa