Suuren suosion haasteet – arXivin kasvavat käyttömäärät vaativat ylläpidon päivittämistä

Matematiikan ja sen lähitieteiden merkittävin repositorio arXiv sisältää jo yli 1,6 miljoonaa artikkeleiden e-printtiä. ArXiv toimii alustana, jossa e-printit ovat avoimesti muiden tutkijoiden arvioitavana, ja joista osa julkaistaan paranneltuina versioina lehdissä. ArXiv on kasvanut vuosien mittaan jättiläiseksi, joka on viime vuosina synnyttänyt samalla periaatteella toimivia palveluita myös muille tieteenaloille. Kasvu on asettanut myös omat haasteensa arXivin ylläpidolle, sekä teknisessä että hallinnollisessa mielessä. Tässä artikkelissa bibliometriikan asiantuntija Eva Isaksson taustoittaa arXivin syntyhistoriaa, kehitystä ja nykypäivän haasteita.

(This article is also available in English.)

Teksti: Eva Isaksson

Kun arXiv aloitti toimintansa 1991, se oli ensimmäinen tieteellisten, verkosta avoimesti saatavissa olevien artikkeleiden eli e-printtien repositorio. Sen juuret olivat niin sanotuissa pre-printeissä, artikkeliversioissa, joita jaeltiin ennen niiden ilmestymistä. Nämä kunkin organisaation omiin pahvikansiin nidotut pre-printit saapuivat postitse kirjastoihin, joissa kirjastonhoitaja purki ne pinoksi uutuuspöydälle. Sieltä kiinnostuneet tutkijat nappasivat ne selailtavaksi.

Internet muutti pre-print-postiliikenteen biteiksi. Tutkijat alkoivat ladata aineistojaan Paul Ginspargin perustamaan uuteen palveluun Los Alamos National Laboratoryssa. Palvelu alkoi kasvaa, ja se ristittiin arXiviksi Ginspargin vietyä sen mukanaan Cornellin yliopiston palvelimelle. Vuonna 2001 Cornellin yliopiston kirjasto tarttui ohjaksiin. Tämä oli käytännön sanelemaa, sillä arXiv oli paisunut niin suureksi, ettei sen hallinnointia ja rahoitusta pystytty enää pyörittämään puhtaasti tutkijoiden omin voimin.

Cornellin yliopisto, ensin kirjasto ja tämän vuoden alusta lähtien laskentapalvelut, on vastannut arXivista vuodesta 2001 lähtien. / Kuva: Eva Isaksson

Pioneerin asema ei aina ole kiitollinen. ArXiv syntyi aikana, jolloin esikuvia ei ollut, ei valmista koodia eikä valmiita standardeja. Palvelut lähtivät pyörimään, kun World Wide Web oli vielä aivan uusi. Toiminnot rakennettiin 1990-luvulla, sen ajan akuutteja tarpeita varten, tutkijoiden omilla ehdoilla. ArXiv on tutkijoille nimenomaan julkaisualusta, ei rinnakkaistallennearkisto. Niinpä metadataan suhtauduttiin hyvinkin eri tavalla verrattuna kirjastojen käytäntöihin.

Toiminnot rakennettiin 1990-luvulla, sen ajan akuutteja tarpeita varten, tutkijoiden omilla ehdoilla. ArXiv on tutkijoille nimenomaan julkaisualusta, ei rinnakkaistallennearkisto. Niinpä metadataan suhtauduttiin hyvinkin eri tavalla verrattuna kirjastojen käytäntöihin.

Ajan haasteet: palvelun ylläpito käyttömäärän yhä kasvaessa

Jos pikakelaamme vuoteen 2019, miten arXiv on muuttunut?

Julkaisumäärät arXivissa ovat kasvaneet voimakkaasti. Kuvalähteenä arXiv-tilastoartikkeli, josta löytyvät tarkemmat tiedot.

Ensinnäkin arXiv on paisunut valtavasti. Se sisältää yli 1,6 miljoonaa e-printtiä, ja aineistomäärän kasvu tuntuu vain kiihtyvän. Monet kuvittelevat yhä, että kyse on nimenomaan hiukkasfysiikasta, mutta todellisuudessa hiukkasfysiikan ja tähtitieteen e-printtien määrä on arXivissa ollut pitkään melko vakaa, kun taas erityisesti matematiikan ja tietojenkäsittelytieteen osuudet kasvavat jatkuvasti.  Myös palvelun käyttö on intensiivistä: noin 0,7 miljoonaa luettua e-printtiä vuorokaudessa.

Toiseksi, arXiv pyörii edelleen hyvin vanhan softan varassa. Kyse ei ole ainoastaan e-printeistä, vaan niiden hallinnointisoftasta. Aineistoa ei voida lisätä ilman moderointia, joka arXivin tapauksessa tarkoittaa tarkistusmekanismeja laadun varmistamiseksi ja väärinkäytösten välttämiseksi. Osa moderointijärjestelmästä on automatisoitu. Sen lisäksi arXivia valvoo noin 175 eri tieteenalojen vapaaehtoista moderaattoria, jotka seuraavat oman vastuualueensa aineistoja. Kyseessä on järkälemäiseksi kehitetty systeemi, jonka uudistaminen ei käy käden käänteessä.

ArXivia valvoo noin 175 eri tieteenalojen vapaaehtoista moderaattoria, jotka seuraavat oman vastuualueensa aineistoja. Kyseessä on järkälemäiseksi kehitetty systeemi, jonka uudistaminen ei käy käden käänteessä.

Kolmanneksi: vaikka arXiv on tunnettu ja vakiintunut, sillä on huomattavia haasteita palveluiden ylläpitämisessä ja kehittämisessä. Näin suurilla volyymeillä syntyy kustannuksia, joista selvitäkseen Cornellin yliopiston kirjasto loi 2010 tukimallin, jossa arXivin aktiivisimmat käyttäjät kutsuttiin mukaan käyttöasteen mukaisin tukimaksuin. Tällä hetkellä arXivia tukee kaikkiaan noin 240 organisaatiota. Suurin osa näistä on yliopistokirjastoja. Suomesta Helsingin yliopiston kirjasto on ollut ainoa tukimaksun maksaja. Myös Aalto-yliopisto ja Jyväskylän yliopisto ovat aktiivisia arXiv-käyttäjiä, mutta ne eivät ole lähteneet mukaan tukijärjestelmään.

Neljänneksi on mainittava erilaiset open access -tavoitteiden asettamat haasteet. Plan S on muodostunut arXiville murheenkryyniksi muun muassa siksi, että arXivin metadatamääritykset ovat ajalta ennen uusimpia standardeja, eikä näin iso laiva käänny ketterästi Plan S:n määrittelemille kapeille kulkuväylille. Esimerkiksi vaatimus rahoitustiedosta ja erinäiset tekniset suositukset vaatisivat huomattavia muutoksia arXivin koodiin. Myös suositus avoimista viittauksista on vieras arXivin alkuperäiselle toimintaidealle.

Plan S on muodostunut arXiville murheenkryyniksi muun muassa siksi, että arXivin metadatamääritykset ovat ajalta ennen uusimpia standardeja, eikä näin iso laiva käänny ketterästi Plan S:n määrittelemille kapeille kulkuväylille. Esimerkiksi vaatimus rahoitustiedosta ja erinäiset tekniset suositukset vaatisivat huomattavia muutoksia arXivin koodiin. Myös suositus avoimista viittauksista on vieras arXivin alkuperäiselle toimintaidealle.

Hyväksytyn artikkelin dilemma

Varsin pitkään arXivissa pohdittiin, voisiko nykyisillä moderointiresursseilla kasvattaa tieteenalavalikoimaa. Vaikka matematiikkaa sivuavia aloja on lisätty mukaan, niin 2010-luvun mittaan tilanne on lauennut uusien e-print-arkistojen synnyn myötä. Näistä ehkä tunnetuin on 2013 perustettu biorXiv. Sen käyttöliittymästä huomaa, että palvelun koodaus ja metadatamäärittelyt ovat pari vuosikymmentä arXivia tuoreempia.

ArXiviin verrattuna biorXivin latausmäärät suuntaan ja toiseen ovat toistaiseksi häviävän pienet. Myös käytännöt ovat erilaiset. Ison-Britannian valtakunnallisen tutkimuksen arviointiprosessin REF2021:n eräänä ehtona on arvioitavan aineiston vapaa saatavuus. Tutkijaohjeistukset linjaavat näiden palvelujen eroja. Kustantajan hyväksymät artikkelit voi tallettaa arXiviin, kun taas biorXiv ei salli sitä. Esimerkiksi Cambridgen yliopisto ohjeistaa tutkijaa lataamaan artikkelinsa jälkimmäiseen joko hyvissä ajoin ennen sen hyväksymistä, tai yliopiston omaan repositorioon. ArXivin kohdalla tähdennetään accepted-tiedon kirjaamista metadataan.

Helsingin yliopiston Eva Isaksson on osallistunut arXivin käyttäjäyhteisön toimintaan Cornellissa. Taustalla istuu arXivin perustanut Paul Ginsparg (takana sivuttain).

Myös Helsingin yliopistossa on tuskailtu arXiv-ohjeistuksen kanssa, sillä aineiston on meillä täytettävä opetus- ja kulttuuriministeriön julkaisutiedonkeruussa OA-ehdot, jotta arXivista löytyvä e-printti voidaan laskea avoimeksi julkaisuversioksi. Tässä ongelmaksi nousee se, ettei arXivin metadatasta välttämättä löydy tutkijan tallentamana tietoa artikkelin hyväksymisestä. Miten asian voisi ohjeistaa ymmärrettävästi? Kompromissina HY:ssä on tutkijoita pyydetty ilmoittamaan kirjastolle kaikista arXivista löytyvistä artikkeliversioista. Pitäisikö heitä myös ohjeistaa Cambridgen yliopiston tavoin merkitsemään accepted-tieto selkeästi arXivin metadataan?

Muitakin tieteenala-arkistoja on syntynyt tai suunnitteilla eri toimijoiden aloitteesta: chemrXiv, earthrXiv, jne. Yhteistä niille kaikille on se, että volyymit ovat toistaiseksi vaatimattomia. Kustantajat eivät ole asettuneet vastustamaan näiden syntyä huomattuaan, että niissä ilmestynyt aineisto kerryttää myös kustantajan versiolle arvostusta ja huomiota.

Muitakin tieteenala-arkistoja on syntynyt tai suunnitteilla. Kustantajat eivät ole asettuneet vastustamaan näiden syntyä huomattuaan, että niissä ilmestynyt aineisto kerryttää myös kustantajan versiolle arvostusta ja huomiota.

Julkaisitko arXivissa tai biorXivissa? Kerro siitä kirjastolle

      • Helsingin yliopiston avoimen julkaisemisen periaatteiden mukaisesti kaikki yliopistossa tuotetut tieteelliset tallennetaan julkaisuarkisto Heldaan.
      • Kirjasto tekee tutkijan puolesta rinnakkaistallennuksen käyttäen arXivissa tai biorXivissa olevaa e-printtiä.
      • Kun artikkeli on julkaistu lehdessä tai hyväksytty julkaistavaksi, tutkijan tulee vain lähettää tieto lehden nimestä sekä linkki artikkelin arXiv- tai biorXiv-sivulle osoitteeseen openaccess-info@helsinki.fi.
      • Kirjasto rinnakkaistallentaa uusimman arXivissa tai biorXivissa olevan tiedoston HY:n tutkimustietojärjestelmään, josta se siirtyy julkaisuarkisto Heldaan.
      • Kirjaston tallennuspalvelu on kaikkien yliopistolaisten käytettävissä.

Riittävätkö resurssit?

ArXiv ei ole itsestäänselvyys, vaan kunnianhimoinen ja yllättävän menestynyt yritys luoda uutta tieteellistä toimintakulttuuria. Palvelun nykyiset haasteet ovat seurausta nimenomaan suuresta suosiosta ja menestyksestä. Perusperiaatteet ovat kunnossa, ja arXivin maine on erittäin hyvä. Sen sijaan palvelun uudistustyö vaatisi huomattavasti nykyistä suurempia resursseja.

Tammikuussa 2019 arXivin ylläpito siirtyi Cornellin yliopiston kirjastolta saman yliopiston laskentapalveluille. Huolta on herättänyt se, että arXivin ylläpito-organisaation johdossa on henkilövajausta, jonka täyttäminen on ollut haastavaa. Myös koodin uudistustyössä on jouduttu kääntymään kehittäjäyhteisön puoleen – ehkä arXivia voitaisiin uudistaa yhteistyönä, Linuxin tavoin?

ArXiv on toistaiseksi onnistunut keräämään toiminnalleen kohtuullisen paljon säätiörahoitusta, mutta kansainvälisen yhteisön tuki on sille elintärkeää. Myös suomalaisten kannattaa osallistua aktiivisesti arXivin resursointiin, sillä se on meilläkin tutkijoille erittäin keskeinen julkaisukanava ja tietolähde. Toiminnasta kiinnostuneet voivat seurata kehittämistyötä arXiv Public Wikissä.


Eva Isaksson (TUHAT, ORCID, @eisaksso) työskenteee Helsingin yliopiston kirjastossa tietoasiantuntijana, erikoisalanaan bibliometriikka.