About Jyrki Ilva

Digitaalinen kirjasto -blogi sisältää Kansalliskirjastolaisten kirjoituksia ajankohtaisista asioista. Asialliset kommentit ja keskustelu ovat tervetulleita!

E-thesiksen maailmankartta

e-thesis-map-2007-09-pieni.jpg

Julkaisuarkistoja mietitään edelleen valitettavan usein pelkästään julkaisijoiden ja julkaisemisen näkökulmasta. Jotta niiden toiminta olisi perusteltavissa, aineistoille ja palveluille tarvitaan kuitenkin myös käyttäjiä, ja jotta käyttö olisi todennettavissa, tarvitaan tilastointia. Helsingin yliopiston opinnäytteitä ja sarjajulkaisuja jo syksystä 1999 lähtien julkaisseen E-thesis-palvelun käyttöä on seurattu toki aiemminkin (ks. “Ystävämme Google: E-thesiksen käyttötilastojen kertomaa“, Tietolinja 1/2006), mutta E-thesiksen julkaisujen siirto DSpace-ympäristöön helmikuussa 2007 on pakottanut miettimään uusia ratkaisuja myös tilastoinnin osalta. Continue reading

Rinnakkaisjulkaisemisen vaikea alkutaival

Charles W. Bailey Jr pohtii DigitalKoans-blogiin kirjoittamassaan artikkelissa “Institutional Repositories: DOA?” julkaisuarkistojen rakentamisen nykytilaa. Alkuinnostuksen hiivuttua on monissa tapauksissa tullut tilalle pikemminkin pettymys siihen miten tahmeasti aineistojen tallentaminen on lähtenyt liikkeelle. Onko julkaisuarkisto siis kuolleena syntynyt keksintö? Miltä julkaisuarkistojen tilanne näyttää tällä hetkellä Suomen näkökulmasta? Continue reading

Shakespearen kovalevy

Mitä oikein löytäisimme, jos pääsisimme kurkistamaan William Shakespearen tietokoneen kovalevylle? Löytyisikö jostain sen syövereistä kenties tiedosto, jonka nimi on Hamlet.doc? Voisimmeko päätellä kovalevylle tallentuneiden selaimen historiatietojen perusteellä, millä internet-sivuilla kirjailija oli surffannut edellisenä iltana ennen kuin aloitti tiedoston muokkaamisen? Continue reading

Kokemuksia eurooppalaisen väitöskirjaportaalin rakentamisesta

Joint Information Systems Committee (Iso-Britannia), Ruotsin kansalliskirjasto ja SURF Foundation (Hollanti) ovat testanneet yhteiseurooppalaista, OAI-PMH:n varaan rakennettua väitöskirjaportaalia. Portaaliin on toistaiseksi haravoitu noin 10000 väitöskirjan metatiedot yhteensä viidestä eri maasta (Hollanti, Iso-Britannia, Ruotsi, Saksa ja Tanska). Continue reading

Parlamenttikirjasto

Maamme kirjastoblogien toistaiseksi melko harvalukuinen katras on saanut uuden jäsenen. Eduskunnan kirjasto on avannut pari viikkoa sitten oman blogin, joka löytyy osoitteesta

http://parlamenttikirjasto.blogspot.com/

Blogi sisältää Digijulkaisujen tavoin kirjaston henkilökunnan epävirallisia ajatuksia ja vinkkejä ajankohtaisiin dokumentteihin. Vaikuttaa lupaavalta!

ETD 2007 (4): Esimerkkejä maailmalta

[Tämä merkintä liittyy Uppsalassa 13.-16.6.2007 järjestettyyn opinnäytteiden verkkojulkaisemista käsittelleeseen ETD 2007 -konferenssiin, ks. myös ensimmäinen merkintä]

Huippuyliopistossa kaikki on huippua?

Kuten tavallista, monet Uppsalassa kuulluista esityksistä tarjosivat enemmän tai vähemmän uskottavia visioita erilaisista hienoista järjestelmistä ja päämääristä, joita tulevaisuudessa aiotaan toteuttaa. Tätä kontekstia vasten oli piristävää kuunnella Craig Thomasin esitystä, jossa kerrottiin aivan rehellisesti mitä kaikkea Massachusetts Institute of Technologyn väitöskirjajulkaisemissa oli mennyt vuosien varrella pieleen. MIT:n opinnäytejulkaisut ovat saaneet paljon julkisuutta, ja olen kuullut väitettävän, ettei yliopistossa enää olisi väitöskirjojen printtiversioita ollenkaan.

Thomasin mukaan yliopiston alkuperäinen elektronisten väitöskirjojen julkaisemista varten tarkoitettu järjestelmä kaatui, kun yliopisto joutui 2000-luvun alkuvuosina Internet-yhtiöiden osakekurssien romahdettua rahavaikeuksiin ja kolmasosa kirjaston henkilökunnasta irtisanottiin. Irtisanottujen joukossa olivat mm. kaikki julkaisujärjestelmän ylläpidosta vastanneet henkilöt. Syksyllä 2002 lanseeratusta DSpacesta tulikin MIT:n näkökulmasta eräänlainen pelastusvene, johon aiemman järjestelmän jäljiltä kodittomaksi jääneet digitaaliset dokumentit saatiin tallennettua (ks. MIT:n väitöskirjat DSpacessa). DSpacen valmiita syöttölomakkeita MIT ei sen sijaan ottanut käyttöön, vaan elektroniset väitöskirjat toimitetaan edelleen julkaistavaksi primitiivisemmillä menetelmillä.

MIT:n väitöskirjoista saadaan nykyään valmiiksi sähköisessä muodossa vain kymmenen prosenttia, ja loput skannataan kirjastossa paperiversiosta. Tällä hetkellä yliopisto tutkii mahdollisuuksia muualla kehitettyjen DSpace-työkalujen (mm. Manakin) käyttämiseksi tilanteen kohentamiseen ja elektronisten aineistojen tallentamisen helpottamiseen. Craig Thomas ei kuitenkaan ollut kovin toiveikas radikaalien muutosten suhteen: yliopisto koostuu lukuisista varsin itsenäisistä yksiköistä, joita on vaikea pakottaa omaksumaan yhtenäisiä käytäntöjä.

Yhteistyö on voimaa

Omalta kannaltamme kiinnostavimmasta päästä oli Adam Mikealin esitys Teksasin yliopistojen suunnittelemasta yhteisestä opinnäytekirjastosta (“Texas Digital Library“). Kansalliskirjaston Doriassa hyödyntämä Manakin-käyttöliittymäohjelmisto on peräisin nimenomaan Teksasista (ks. Samu Viidan matkaraportti Tietolinja-lehden numerossa 1/2007), ja Teksasissa on kehitetty myös osavaltion yhteistä MODS XML -skeemaa, joka sopisi erityisesti opinnäytteiden metadatan tallennukseen.

Teknisten edistysaskelten lisäksi Mikealin esityksessä oli huomionarvoista hankkeen laajuus ja sen takana oleva yhteinen poliittinen tahto: mukana olevissa teksasilaisyliopistoissa on yhteensä 65 kampusta ja yli 400 000 opiskelijaa. Tavoitteena on kuitenkin päästä hyvin keskitettyyn malliin, jossa kaikki opinnäytteet tallennetaan sähköisessä muodossa yhteiseen järjestelmään, ja niiden syöttämiseen käytetään yhtä yhteistä lomaketta. Yhteistä lomaketta pidettiin tarpeellisena, jotta metadata saadaan kerättyä ja tallennettua kaikista yliopistoista yhteensopivassa muodossa.

Plagiointia Amerikan malliin

Opinnäytetyössä tehty plagiointi on viime viikkoina taas kerran ylittänyt uutiskynnyksen myös Suomessa. Aihepiiriin tuntuu aina vain törmäävän kaikissa opinnäytejulkaisemiseen liittyvissä yhteyksissä, ja joskus tuntuu, että asia on saanut aivan liikaa huomiota vilppitapausten todelliseen määrään ja merkitykseen nähden. Juttelin konferenssin iltajuhlassa ProQuestin Austin McLeanin kanssa, ja hän kertoi että plagiointitapauksia tulee suurta opinnäytetietokantaa ylläpitävän ProQuestin tietoon parisenkymmentä vuosittain. Merkittävä osa tapauksista koskee vanhoja opinnäytetöitä, joita ProQuestin palvelussa on yhteensä kolmatta miljoonaa, eli kyseessä ei ole mikään erityisesti verkkoaikakauteen liittyvä ilmiö. Lisäksi on ilmeistä, että verkkojulkaiseminen on lisännyt merkittävästi kiinnijäämisen riskiä.

Minulta jäi valitettavasti väliin McLeanin ja Niamh Brennanin pitämä plagiarismia käsitellyt esitys (“Plagiarism and ETDs: Confronting the Reality”). Konferenssissa viitattiin kuitenkin useaan otteeseen Ohion yliopistossa Athensissa viime vuonna ilmitulleeseen plagiointitapaukseen, jossa kymmienien pääasiassa ulkomaalaistaustaisten opiskelijoiden epäiltiin syyllistyneen parin edellisen vuosikymmenen aikana plagiointiin. Tapauksen seurauksena kaksi töiden ohjaamisesta vastuussa ollutta yliopiston professoria sai lähteä.

[Takaisin ensimmäiseen merkintään]

ETD 2007 (3): Tieteellisen julkaisemisen tulevaisuus

[Tämä merkintä liittyy Uppsalassa 13.-16.6.2007 järjestettyyn opinnäytteiden verkkojulkaisemista käsittelleeseen ETD 2007 -konferenssiin, ks. myös ensimmäinen merkintä]

Irti paperijulkaisemisen kaavoista

Torstain keynote speaker, kemian tutkija ja Cambridgen yliopiston lehtori Peter Murray-Rust kritisoi PDF:ää tallennusformaattina, ja samaan aiheeseen palattiin myös sekä saman iltapäivän käytettävyyteen paneutuneessa paneelikeskustelussa että seuraavan päivän tutkimusaineistoja käsitelleessä paneelikeskustelussa.

Adoben jo 1990-luvun alkupuolella lanseeraama PDF on hyväksytty opinnäytejulkaisemisessa eräänlaiseksi väliaikaisratkaisuksi, josta vähitellen siirryttäisiin aidommin digitaalisen maailman ja datan hyödyntämisen ehdoilla toimiviin, esim. XML-pohjaisiin formaatteihin. PDF:n valtakausi on kuitenkin osoittautumassa paljon odotettua pidemmäksi, ja sen mukana tieteellinen julkaiseminen näyttää yhä jääneen yllättävän sitkeästi kiinni paperiaikakauden ajattelutapoihin ja toimintamalleihin.

Opinnäytteiden muokkaamista SGML- tai XML-formaatteihin on toki tehty myös käytännössä joissakin yliopistokirjastoissa, etenkin Saksassa ja Suomessa Oulun yliopistossa, mutta toiminnan vaatima tekninen osaaminen ja sen oletettu kalleus ovat kuitenkin pitäneet käytännön soveltajien määrän pienenä. Tällä hetkellä näyttää pikemminkin siltä, että muutoksen on lähdettävä tutkijoista ja tieteenalojen sisäisistä julkaisukäytännöistä, jolloin myös kunkin tieteenalan erityistarpeita voidaan ottaa paremmin huomioon kuin kirjastojen tekemissä väistämättä melko geneerisissä formaattimuunnoksissa.

Perjantain paneelikeskusteluun osallistunut tanskalainen biokemisti Lars Juhl Jensen kertoi esimerkkejä siitä, miten konservatiivisia useimmat perinteiset tieteelliset lehdet ovat. Niiden editorit suhtautuvat yleensä nihkeästi pieniinkin julkaisemisen käytäntöjä tai tallennusformaatteja koskeviin muutoksiin.

Coalition for Networked Informationin johtaja Clifford Lynch jatkoi samasta teemasta perjantaina konferenssin päätössanoissa. Hänen mukaansa olemme tulossa pisteeseen, jossa monet perinteiset tieteellisen julkaisemisen käytännöt alkavat murtua. Perinteisissä lehdissä julkaistavien artikkelien kautta tapahtuva muodollinen akateeminen pätevöityminen näyttää vähitellen eriytyvän yhä kauemmaksi erilaisten uusien ja usein epämuodollisten väylien kautta tapahtuvasta tieteellisestä kommunikaatiosta, jolla on itse tieteenteon kannalta yhä suurempi merkitys.

Tieteellisten artikkelien tulevaisuuden lisäksi Lynch nosti esiin myös kysymyksen tieteellisten monografioiden tulevaisuudesta. Monografioiden julkaiseminen ei ole kansainvälisellä tasolla enää taloudellisesti kannattavaa toimintaa, sillä myyntiluvut ovat yleensä melko pieniä. Käytännössä tämä tarkoittaa sitä, että esim. väitöskirjojen pohjalta muokattuja monografioita on yhä vaikeampi saada julkaistaviksi, etenkin jos ne käsittelevät suuren yleisön näkökulmasta marginaalisia aiheita.

Erityisesti humanistisella ja yhteiskuntatieteellisellä alalla monografioita pidetään kuitenkin edelleen tärkeänä asiana, ja niiden julkaisemista pyritään jatkamaan ongelmista huolimatta. Yhtenä mahdollisena tulevaisuuden mallina Lynch mainitsi American Historical Associationin Gutenberg-E-projektissa toteutettujen verkkokirjojen kaltaiset ratkaisut (Gutenberg-E:n taustasta ks. myös hanketta ideoimassa olleen kirjahistorioitsija Robert Darntonin haastattelu Ennen & Nyt –lehdessä 1/01). Suomalaisesta näkökulmasta on ehkä huomionarvoista, että Gutenberg-E:n julkaisut on muokattu nimenomaan valmiiden, hyväksyttyjen väitöskirjojen pohjalta: väitöskirjat sinällään ovat ainakin täällä Suomessa pysyneet formaatiltaan varsin konservatiivisina oppineisuuden osoituksina, joissa ei ole juuri uskallettu tehdä julkaisun muotoon liittyviä kokeiluita.

Lynch pohti myös julkaisujen ja dokumenttien rajojen merkitystä esim. interaktiivisuutta koskevien web 2.0 –henkisten toiveiden kannalta. Haluavatko kaikki tutkijat todella käydä loputtomia keskusteluita julkaisujensa sisällöstä? Jossain vaiheessa on kuitenkin hyvä saada työ loppuun ja siirtyä muiden aiheiden pariin. Lynch piti tärkeänä kysymyksenä myös sitä, missä kulkevat itse julkaisun ja siihen liittyvän taustamateriaalin väliset rajat.

Tutkimusdata ja julkaisuarkistot

Perjantain paneelikeskustelussa käsiteltiin erityisesti tutkimusdataa ja sen tallentamista, joka on ollut muutenkin ajankohtainen teema viime aikoina. Paneelikeskustelun osallistujat näyttivät pitävän laajoja alakohtaisia arkistoja ja tutkijoiden yhteistyössä tuottamia datapankkeja hajautettuja organisaatiokohtaisia julkaisuarkistoja mielekkäämpänä ratkaisuna. Kun oman alan data on saatavilla keskitetysti (ja mahdollisimman avoimesti) yhdestä paikasta, sitä on helpompi hyödyntää mm. tiedon louhintaan.

Datan määrän kasvu on luonnontieteissä huimaa: esim. biokemiassa kertyi pelkästään vuoden 2006 aikana enemmän uutta dataa kuin koko tieteenalan aiemman historian aikana yhteensä. Valtavien tietomassojen hallinnasta ja tutkijoiden välisestä datan jakamisesta onkin tullut tieteenalan keskeisiä menestystekijöitä. Tekijänoikeuslainsäädännön ja kustantajien kaupallisten intressien tiedon vapaalle hyödyntämiselle asettamista esteistä on kuitenkin edelleen paljon harmia.

Yleisön joukosta tulleessa kommentissa todettiin, että tutkijat haluavat päästä käsiksi nimenomaan suoraan dataan, eivätkä he ole niinkään kiinnostuneita sen pohjalta muodostetuista valmiista näkymistä tai jonkin ulkopuolisen tahon (lue: kirjastot?) tarjoamista käyttöliittymistä. Murray-Rust kritisoi myös DSpacen kaltaisten järjestelmien tapaa kätkeä data yksittäisinä palasina metadataa sisältävien sivujen taakse. Clifford Lynch huomautti, että kehitteillä oleva ORE-protokolla (joka mahdollistaa metadatan lisäksi myös julkaisuarkiston sisältämien dokumenttien haravoimisen) saattaa auttaa jossain määrin auttaa tähän ongelmaan.

Julkaisemisen työnjako

Clifford Lynch muisteli päätössanojensa yhteydessä 15 vuoden takaista tilannetta, jolloin yliopistojen IT-väki, kirjastot, yliopistopainot ja tiedekuntien edustajat kokoontuivat yhdessä miettimään digitaalisen maailman haasteita. Tuolloin kirjastot vielä empivät, uskaltavatko ne ottaa vastuuta elektronisten aineistojen säilyttämisestä.

Nykynäkökulmasta tarkasteltuna yliopistojen IT-palvelut ovat muuttuneet julkaisemisen kannalta lähes läpinäkyviksi, ja hyvä kysymys on myös se, miten kirjastojen rooli tulee kehittymään. Vaikka kirjastot ovat olleet etulinjassa opinnäytteiden julkaisemisessa ja myös julkaisuarkistojen perustamisessa, saattaa olla että laitosten ja yksittäisten tutkijoiden rooli kasvaa tulevaisuudessa. Esim. Murray-Rustin ja Jensenin esittelemien kemistien ja biokemistien käyttämien XML-pohjaisten merkintäjärjestelmien hyödyntäminen taitaa vaatia sellaista alakohtaista asiantuntemusta, ettei sitä useimmista kirjastoista löydy. Laitosten ja tiedekuntien henkilökunta pitäisi siis saada paremmin integroitua mukaan miettimään julkaisemisen ja julkaisupalveluiden kehittämistä.

Kansainvälisten alakohtaisten datapankkien perustaminen poikkeaa myös kirjastojen perinteisestä toimintaideasta nimenomaan omia paikallisasiakkaitaan palvelevana organisaationa. Toisaalta tämä liittyy suurempiin kirjastojen identiteettiä ja tulevaisuutta liittyviin kysymyksiin. Kuten klassillisen filologian tutkija Greg Crane totesi omassa torstaisessa keynote-esitelmässään, kirjastot ovat perinteisesti hankkineet muiden tuottamaa valmista ja sisällöltään pysyväksi oletettua aineistoa paikallisasiakkailleen. Digitaalisessa maailmassa tämä toimintamalli on joka tapauksessa jossain vaiheessa menneisyyttä, ja perinteisen paperimaailman tarpeita varten rakennetun kirjaston tilalle saatetaan tarvita kokonaan uudenlaista infrastruktuuria.

[Jatkuu seuraavassa merkinnässä]

ETD 2007 (2): Kansainvälistä yhteistyötä

[Tämä merkintä liittyy Uppsalassa 13.-16.6.2007 järjestettyyn opinnäytteiden verkkojulkaisemista käsittelleeseen ETD 2007 -konferenssiin, ks. myös ensimmäinen merkintä]

Opinnäytteet vs. julkaisuarkistot

Konferenssin ensimmäisenä päivänä pidettiin pääasiassa Euroopan tilanteeseen keskittynyt workshop, jossa esiteltiin yhteiseurooppalaisia GUIDE– ja DART-Europe-projekteja. Projektien aktiivit päätyivät toteamaan, ettei yhteisten hankkeiden edistys ollut kaikilta osin toivottua tasoa: eri maiden ETD-ihmisiä näyttää olevan vaikea motivoida mukaan yhteiseen toimintaan.

Tämän masentavan huomion myötä Gerard van Westrienen (SURF Foundation, Hollanti) käänsi keskustelun pohdiskeluksi siitä, ovatko eurooppalaiset opinnäytteet sellainen erityisala, jonka ympärille voidaan rakentaa toimintaa, vai kannattaisiko niitä käsitellä osana laajempia julkaisuarkistojen (institutional repository) perustamiseen liittyviä kysymyksiä. Julkaisuarkistoihin liittyviin projekteihin olisi todennäköisesti helpompi saada rahoitusta esim. EU:lta. Yleisön mielipiteet jakautuivat, eikä suurella osalla (minä mukaan lukien) näyttänyt olevan ainakaan äkkiseltään kovin vankkoja mielipiteitä suuntaan tai toiseen.

NDLTD:n johtaja, Virginia Techin tietojenkäsittelytieteen professori Edward Fox muistutti omassa hengenluontipuheessaan siitä, että julkaisuarkistojen saaminen liikkeelle on osoittautunut monissa tapauksissa mutkikkaaksi, kun taas opinnäytteiden kanssa on usein helpompi päästä eteenpäin ja saada aikaan konkreettisia tuloksia.

“Simple Dublin Core is not enough”

Etenkin ensimmäisen päivän projektiesittelyissä tuli esiin jo ennestään tuttu näkemys siitä, että opinnäytteitä ja muitakin julkaisuarkistomateriaaleja varten tarvitaan unqualified Dublin Corea rikkaampia kuvailuformaatteja. Erityisen suuria toiveita kohdistuu EPrints Application Profileen (ks. artikkeli Ariadnen tammikuun numerossa), josta toivotaan eräänlaista paikallisesti ja kansallisilla tasoilla käytössä olevia kuvailuformaatteja yhdistävää kattoformaattia.

Edward Fox toi toisaalta keskustelussa esiin sen, että myös NDLTD:n oma, vuosia sitten opinnäytteitä varten kehitetty metadataformaatti kaipaisi laajentamista ja päivittämistä, eli tätäkään työtä ei ehkä kannata tehdä pelkästään eurooppalaisesta näkökulmasta. Samalla olisi tietysti hyvä, jos kansainvälisiä metadataformaatteja laadittaessa voitaisiin ottaa huomioon myös pohjoismaisten artikkeliväitöskirjojen kaltaiset paikallisten julkaisukulttuurien erikoispiirteet.

[Jatkuu seuraavassa merkinnässä]