Siirry sisältöön

LogoHelsingin yliopisto

Think Open

Digitaalisista tutkimuspalveluista ja avoimesta tieteestä / About digital research services and open science

Suuren suosion haasteet – arXivin kasvavat käyttömäärät vaativat ylläpidon päivittämistä

Julkaistu 2019-10-312021-11-10 kirjoittanut eisaksso

Matematiikan ja sen lähitieteiden merkittävin repositorio arXiv sisältää jo yli 1,6 miljoonaa artikkeleiden e-printtiä. ArXiv toimii alustana, jossa e-printit ovat avoimesti muiden tutkijoiden arvioitavana, ja joista osa julkaistaan paranneltuina versioina lehdissä. ArXiv on kasvanut vuosien mittaan jättiläiseksi, joka on viime vuosina synnyttänyt samalla periaatteella toimivia palveluita myös muille tieteenaloille. Kasvu on asettanut myös omat haasteensa arXivin ylläpidolle, sekä teknisessä että hallinnollisessa mielessä. Tässä artikkelissa bibliometriikan asiantuntija Eva Isaksson taustoittaa arXivin syntyhistoriaa, kehitystä ja nykypäivän haasteita.

(This article is also available in English.)

Teksti: Eva Isaksson

Kun arXiv aloitti toimintansa 1991, se oli ensimmäinen tieteellisten, verkosta avoimesti saatavissa olevien artikkeleiden eli e-printtien repositorio. Sen juuret olivat niin sanotuissa pre-printeissä, artikkeliversioissa, joita jaeltiin ennen niiden ilmestymistä. Nämä kunkin organisaation omiin pahvikansiin nidotut pre-printit saapuivat postitse kirjastoihin, joissa kirjastonhoitaja purki ne pinoksi uutuuspöydälle. Sieltä kiinnostuneet tutkijat nappasivat ne selailtavaksi.

Internet muutti pre-print-postiliikenteen biteiksi. Tutkijat alkoivat ladata aineistojaan Paul Ginspargin perustamaan uuteen palveluun Los Alamos National Laboratoryssa. Palvelu alkoi kasvaa, ja se ristittiin arXiviksi Ginspargin vietyä sen mukanaan Cornellin yliopiston palvelimelle. Vuonna 2001 Cornellin yliopiston kirjasto tarttui ohjaksiin. Tämä oli käytännön sanelemaa, sillä arXiv oli paisunut niin suureksi, ettei sen hallinnointia ja rahoitusta pystytty enää pyörittämään puhtaasti tutkijoiden omin voimin.

Cornellin yliopisto, ensin kirjasto ja tämän vuoden alusta lähtien laskentapalvelut, on vastannut arXivista vuodesta 2001 lähtien. / Kuva: Eva Isaksson

Pioneerin asema ei aina ole kiitollinen. ArXiv syntyi aikana, jolloin esikuvia ei ollut, ei valmista koodia eikä valmiita standardeja. Palvelut lähtivät pyörimään, kun World Wide Web oli vielä aivan uusi. Toiminnot rakennettiin 1990-luvulla, sen ajan akuutteja tarpeita varten, tutkijoiden omilla ehdoilla. ArXiv on tutkijoille nimenomaan julkaisualusta, ei rinnakkaistallennearkisto. Niinpä metadataan suhtauduttiin hyvinkin eri tavalla verrattuna kirjastojen käytäntöihin.

Toiminnot rakennettiin 1990-luvulla, sen ajan akuutteja tarpeita varten, tutkijoiden omilla ehdoilla. ArXiv on tutkijoille nimenomaan julkaisualusta, ei rinnakkaistallennearkisto. Niinpä metadataan suhtauduttiin hyvinkin eri tavalla verrattuna kirjastojen käytäntöihin.

Ajan haasteet: palvelun ylläpito käyttömäärän yhä kasvaessa

Jos pikakelaamme vuoteen 2019, miten arXiv on muuttunut?

Julkaisumäärät arXivissa ovat kasvaneet voimakkaasti. Kuvalähteenä arXiv-tilastoartikkeli, josta löytyvät tarkemmat tiedot.

Ensinnäkin arXiv on paisunut valtavasti. Se sisältää yli 1,6 miljoonaa e-printtiä, ja aineistomäärän kasvu tuntuu vain kiihtyvän. Monet kuvittelevat yhä, että kyse on nimenomaan hiukkasfysiikasta, mutta todellisuudessa hiukkasfysiikan ja tähtitieteen e-printtien määrä on arXivissa ollut pitkään melko vakaa, kun taas erityisesti matematiikan ja tietojenkäsittelytieteen osuudet kasvavat jatkuvasti.  Myös palvelun käyttö on intensiivistä: noin 0,7 miljoonaa luettua e-printtiä vuorokaudessa.

Toiseksi, arXiv pyörii edelleen hyvin vanhan softan varassa. Kyse ei ole ainoastaan e-printeistä, vaan niiden hallinnointisoftasta. Aineistoa ei voida lisätä ilman moderointia, joka arXivin tapauksessa tarkoittaa tarkistusmekanismeja laadun varmistamiseksi ja väärinkäytösten välttämiseksi. Osa moderointijärjestelmästä on automatisoitu. Sen lisäksi arXivia valvoo noin 175 eri tieteenalojen vapaaehtoista moderaattoria, jotka seuraavat oman vastuualueensa aineistoja. Kyseessä on järkälemäiseksi kehitetty systeemi, jonka uudistaminen ei käy käden käänteessä.

ArXivia valvoo noin 175 eri tieteenalojen vapaaehtoista moderaattoria, jotka seuraavat oman vastuualueensa aineistoja. Kyseessä on järkälemäiseksi kehitetty systeemi, jonka uudistaminen ei käy käden käänteessä.

Kolmanneksi: vaikka arXiv on tunnettu ja vakiintunut, sillä on huomattavia haasteita palveluiden ylläpitämisessä ja kehittämisessä. Näin suurilla volyymeillä syntyy kustannuksia, joista selvitäkseen Cornellin yliopiston kirjasto loi 2010 tukimallin, jossa arXivin aktiivisimmat käyttäjät kutsuttiin mukaan käyttöasteen mukaisin tukimaksuin. Tällä hetkellä arXivia tukee kaikkiaan noin 240 organisaatiota. Suurin osa näistä on yliopistokirjastoja. Suomesta Helsingin yliopiston kirjasto on ollut ainoa tukimaksun maksaja. Myös Aalto-yliopisto ja Jyväskylän yliopisto ovat aktiivisia arXiv-käyttäjiä, mutta ne eivät ole lähteneet mukaan tukijärjestelmään.

Neljänneksi on mainittava erilaiset open access -tavoitteiden asettamat haasteet. Plan S on muodostunut arXiville murheenkryyniksi muun muassa siksi, että arXivin metadatamääritykset ovat ajalta ennen uusimpia standardeja, eikä näin iso laiva käänny ketterästi Plan S:n määrittelemille kapeille kulkuväylille. Esimerkiksi vaatimus rahoitustiedosta ja erinäiset tekniset suositukset vaatisivat huomattavia muutoksia arXivin koodiin. Myös suositus avoimista viittauksista on vieras arXivin alkuperäiselle toimintaidealle.

Plan S on muodostunut arXiville murheenkryyniksi muun muassa siksi, että arXivin metadatamääritykset ovat ajalta ennen uusimpia standardeja, eikä näin iso laiva käänny ketterästi Plan S:n määrittelemille kapeille kulkuväylille. Esimerkiksi vaatimus rahoitustiedosta ja erinäiset tekniset suositukset vaatisivat huomattavia muutoksia arXivin koodiin. Myös suositus avoimista viittauksista on vieras arXivin alkuperäiselle toimintaidealle.

Hyväksytyn artikkelin dilemma

Varsin pitkään arXivissa pohdittiin, voisiko nykyisillä moderointiresursseilla kasvattaa tieteenalavalikoimaa. Vaikka matematiikkaa sivuavia aloja on lisätty mukaan, niin 2010-luvun mittaan tilanne on lauennut uusien e-print-arkistojen synnyn myötä. Näistä ehkä tunnetuin on 2013 perustettu biorXiv. Sen käyttöliittymästä huomaa, että palvelun koodaus ja metadatamäärittelyt ovat pari vuosikymmentä arXivia tuoreempia.

ArXiviin verrattuna biorXivin latausmäärät suuntaan ja toiseen ovat toistaiseksi häviävän pienet. Myös käytännöt ovat erilaiset. Ison-Britannian valtakunnallisen tutkimuksen arviointiprosessin REF2021:n eräänä ehtona on arvioitavan aineiston vapaa saatavuus. Tutkijaohjeistukset linjaavat näiden palvelujen eroja. Kustantajan hyväksymät artikkelit voi tallettaa arXiviin, kun taas biorXiv ei salli sitä. Esimerkiksi Cambridgen yliopisto ohjeistaa tutkijaa lataamaan artikkelinsa jälkimmäiseen joko hyvissä ajoin ennen sen hyväksymistä, tai yliopiston omaan repositorioon. ArXivin kohdalla tähdennetään accepted-tiedon kirjaamista metadataan.

Helsingin yliopiston Eva Isaksson on osallistunut arXivin käyttäjäyhteisön toimintaan Cornellissa. Taustalla istuu arXivin perustanut Paul Ginsparg (takana sivuttain).

Myös Helsingin yliopistossa on tuskailtu arXiv-ohjeistuksen kanssa, sillä aineiston on meillä täytettävä opetus- ja kulttuuriministeriön julkaisutiedonkeruussa OA-ehdot, jotta arXivista löytyvä e-printti voidaan laskea avoimeksi julkaisuversioksi. Tässä ongelmaksi nousee se, ettei arXivin metadatasta välttämättä löydy tutkijan tallentamana tietoa artikkelin hyväksymisestä. Miten asian voisi ohjeistaa ymmärrettävästi? Kompromissina HY:ssä on tutkijoita pyydetty ilmoittamaan kirjastolle kaikista arXivista löytyvistä artikkeliversioista. Pitäisikö heitä myös ohjeistaa Cambridgen yliopiston tavoin merkitsemään accepted-tieto selkeästi arXivin metadataan?

Muitakin tieteenala-arkistoja on syntynyt tai suunnitteilla eri toimijoiden aloitteesta: chemrXiv, earthrXiv, jne. Yhteistä niille kaikille on se, että volyymit ovat toistaiseksi vaatimattomia. Kustantajat eivät ole asettuneet vastustamaan näiden syntyä huomattuaan, että niissä ilmestynyt aineisto kerryttää myös kustantajan versiolle arvostusta ja huomiota.

Muitakin tieteenala-arkistoja on syntynyt tai suunnitteilla. Kustantajat eivät ole asettuneet vastustamaan näiden syntyä huomattuaan, että niissä ilmestynyt aineisto kerryttää myös kustantajan versiolle arvostusta ja huomiota.

Julkaisitko arXivissa tai biorXivissa? Kerro siitä kirjastolle

      • Helsingin yliopiston avoimen julkaisemisen periaatteiden mukaisesti kaikki yliopistossa tuotetut tieteelliset tallennetaan julkaisuarkisto Heldaan.
      • Kirjasto tekee tutkijan puolesta rinnakkaistallennuksen käyttäen arXivissa tai biorXivissa olevaa e-printtiä.
      • Kun artikkeli on julkaistu lehdessä tai hyväksytty julkaistavaksi, tutkijan tulee vain lähettää tieto lehden nimestä sekä linkki artikkelin arXiv- tai biorXiv-sivulle osoitteeseen openaccess-info@helsinki.fi.
      • Kirjasto rinnakkaistallentaa uusimman arXivissa tai biorXivissa olevan tiedoston HY:n tutkimustietojärjestelmään, josta se siirtyy julkaisuarkisto Heldaan.
      • Kirjaston tallennuspalvelu on kaikkien yliopistolaisten käytettävissä.

Riittävätkö resurssit?

ArXiv ei ole itsestäänselvyys, vaan kunnianhimoinen ja yllättävän menestynyt yritys luoda uutta tieteellistä toimintakulttuuria. Palvelun nykyiset haasteet ovat seurausta nimenomaan suuresta suosiosta ja menestyksestä. Perusperiaatteet ovat kunnossa, ja arXivin maine on erittäin hyvä. Sen sijaan palvelun uudistustyö vaatisi huomattavasti nykyistä suurempia resursseja.

Tammikuussa 2019 arXivin ylläpito siirtyi Cornellin yliopiston kirjastolta saman yliopiston laskentapalveluille. Huolta on herättänyt se, että arXivin ylläpito-organisaation johdossa on henkilövajausta, jonka täyttäminen on ollut haastavaa. Myös koodin uudistustyössä on jouduttu kääntymään kehittäjäyhteisön puoleen – ehkä arXivia voitaisiin uudistaa yhteistyönä, Linuxin tavoin?

ArXiv on toistaiseksi onnistunut keräämään toiminnalleen kohtuullisen paljon säätiörahoitusta, mutta kansainvälisen yhteisön tuki on sille elintärkeää. Myös suomalaisten kannattaa osallistua aktiivisesti arXivin resursointiin, sillä se on meilläkin tutkijoille erittäin keskeinen julkaisukanava ja tietolähde. Toiminnasta kiinnostuneet voivat seurata kehittämistyötä arXiv Public Wikissä.


Eva Isaksson (TUHAT, ORCID, @eisaksso) työskenteee Helsingin yliopiston kirjastossa tietoasiantuntijana, erikoisalanaan bibliometriikka.

KategoriatAvoin julkaiseminen / Open Access, Avoin tiede / Open Science, Tutkimuksen työkalut / Research Tools, Tutkimusinfrastruktuurit / Research Infrastructures, Tutkimuspalvelut / Research Services AvainsanatarXiv, avoin julkaiseminen, avoin tiede, digitalisaatio, julkaisualustat_feed, julkaisuarkistot, julkaisutiedonkeruu, metadata, open access, plan S, pre-print, preprint, preprint-arkistot, preprint-repository, tieteellinen julkaiseminen, tieteellisen julkaisemisen kulttuuri, tieteelliset julkaisukäytännöt

Think Open Blog

Tietoa blogista / About this blog >>

Toimitusneuvosto / Editorial Board >>

Kirjoittajaohjeet / Instructions for writers >>

Aiheet / Topics

  • Avoin data / Open Data (111)
  • Avoin julkaiseminen / Open Access (169)
  • Avoin opetus / Open Education (29)
  • Avoin tiede / Open Science (318)
  • Digihumanismi / Digital humanities (19)
  • Kansalaistiede / Citizen Science (3)
  • Tietosuoja / Data Protection (29)
  • Tietoturva / Information Security (21)
  • Tutkimuksen näkyvyys / Visibility of Research (61)
  • Tutkimuksen työkalut / Research Tools (62)
  • Tutkimusdatanhallinta / Research Data Management (RDM) (121)
  • Tutkimusinfrastruktuurit / Research Infrastructures (73)
  • Tutkimuspalvelut / Research Services (237)
  • Tutkimustunnisteet / Research Identifiers (16)

Kaikki blogitekstit julkaistaan CC-BY 4.0 -lisenssillä. Lisenssi ei koske kuvia. / All the blog texts are licensed under a CC-BY 4.0 license. The license does not apply to images.

Asiasanat / Tags

  • aineistonhallintasuunnitelma (23)
  • APC (38)
  • avoimet oppimateriaalit (20)
  • avoin data (33)
  • avoin julkaiseminen (98)
  • avoin opetus (25)
  • avoin oppiminen (20)
  • avoin tiede (118)
  • cOAlition S (23)
  • data (43)
  • data cleaning (25)
  • Data Cleaning Week (23)
  • datan avaaminen (23)
  • datanhallinta (58)
  • datasiivous (25)
  • Datasiivousviikko (21)
  • Datasupport (51)
  • Data Support (41)
  • Datatuki (47)
  • DMP (35)
  • Elsevier (22)
  • EU (25)
  • FAIR (31)
  • gold OA (30)
  • green OA (45)
  • HELDA (45)
  • Helda Open Books (28)
  • hybrid OA (22)
  • julkaisuarkistot (41)
  • kirjoittajamaksut (28)
  • metadata (28)
  • open access (148)
  • open data (20)
  • open science (58)
  • plan S (34)
  • RDM (58)
  • repositories (23)
  • research data (25)
  • research data management (51)
  • rinnakkaisjulkaiseminen (22)
  • rinnakkaistallennus (34)
  • Suomen Akatemia (31)
  • tiedekustantajat (22)
  • tutkimusdata (34)
  • tutkimusdatanhallinta (44)

Arkisto / Archives

  • maaliskuu 2023 (7)
  • helmikuu 2023 (4)
  • tammikuu 2023 (3)
  • joulukuu 2022 (6)
  • marraskuu 2022 (1)
  • lokakuu 2022 (6)
  • syyskuu 2022 (4)
  • elokuu 2022 (2)
  • toukokuu 2022 (6)
  • huhtikuu 2022 (4)
  • maaliskuu 2022 (10)
  • helmikuu 2022 (9)
  • tammikuu 2022 (2)
  • joulukuu 2021 (6)
  • marraskuu 2021 (10)
  • lokakuu 2021 (9)
  • syyskuu 2021 (4)
  • elokuu 2021 (3)
  • kesäkuu 2021 (1)
  • toukokuu 2021 (5)
  • huhtikuu 2021 (8)
  • maaliskuu 2021 (11)
  • helmikuu 2021 (8)
  • tammikuu 2021 (6)
  • joulukuu 2020 (4)
  • marraskuu 2020 (7)
  • lokakuu 2020 (12)
  • syyskuu 2020 (12)
  • elokuu 2020 (7)
  • kesäkuu 2020 (6)
  • toukokuu 2020 (10)
  • huhtikuu 2020 (5)
  • maaliskuu 2020 (7)
  • helmikuu 2020 (4)
  • tammikuu 2020 (6)
  • joulukuu 2019 (27)
  • marraskuu 2019 (9)
  • lokakuu 2019 (16)
  • syyskuu 2019 (9)
  • elokuu 2019 (8)
  • kesäkuu 2019 (3)
  • toukokuu 2019 (8)
  • huhtikuu 2019 (5)
  • maaliskuu 2019 (6)
  • helmikuu 2019 (4)
  • tammikuu 2019 (7)
  • joulukuu 2018 (5)
  • marraskuu 2018 (4)
  • lokakuu 2018 (9)
  • syyskuu 2018 (7)
  • elokuu 2018 (6)
  • heinäkuu 2018 (3)
  • kesäkuu 2018 (5)
  • toukokuu 2018 (5)

Meta

  • Kirjaudu sisään
  • Sisältösyöte
  • Kommenttisyöte
  • WordPress.org

Think Open blog

Tietoa blogista /
About this blog

Toimitusneuvoston jäsenet /
Members of the editorial board

Kirjoittajaohjeet /
Instructions for writers

Kirjaudu sisään / Log in

Palvelun tarjoaa WordPress