Julkaisuarkiston haravointi lisää julkaisujen näkyvyyttä verkkopalveluissa

Miten Helsingin yliopiston Helda-julkaisuarkistoon tallennetut avoimet julkaisut leviävät maailmalla? Tätä ei ole aiemmin selvitetty, mutta tässä blogiartikkelissa luodaan katsaus aiheeseen pienen otantatutkimuksen avulla. Kahdentoista julkaisun satunnaisotannan perusteella voidaan todeta, että rinnakkaisjulkaisut leviävät (indeksoituvat) yleisesti ottaen hyvin eri verkkopalveluihin, mutta indeksoitumisessa on myös paljon julkaisutyyppi- ja palvelukohtaisia eroja.

(This article is also available in English.)

Teksti: Mika Holopainen & Kimmo Koskinen

Helsingin yliopiston avoin julkaisuarkisto Helda sisältää laajan valikoiman erityyppisiä aineistoja, kuten tutkimusartikkeleita, opinnäytteitä, sarjajulkaisuja sekä Helda Open Books -kokoelman sisältämiä kirjoja. Heldassa on aineistojen metatiedot sekä pääsääntöisesti myös varsinaiset julkaisut, jotka voi ladata pdf-muodossa. Tosin monissa tapauksissa artikkeleista ei kustantajan linjausten vuoksi ole voitu tallentaa lopullista julkaisua vaan ainoastaan hyväksytty käsikirjoitusversio

Heldan sisältämien julkaisujen leviämistä ja saatavuutta muissa palveluissa ei ole aiemmin selvitetty. Asia on kuitenkin kiinnostava ja päätimme tutkia asiaa pienimuotoisen otannan avulla. Tavoitteena oli saada yleiskuva Heldan aineistojen indeksoitumisesta joidenkin suurten hakupalveluiden tietokantoihin.

Eri palvelut ovat kehittäneet indeksointiin omat algoritminsa, jotka vaikuttavat siihen, miten tehokkaasti ja kattavasti indeksointi eri lähteistä toteutuu. Indeksoitumisella tarkoitetaan tässä julkaisun kuvailutietojen eli metadatan kopioitumista muihin palveluihin siten, että mukana tiedoissa on linkki Heldaan, jossa itse julkaisu tai sen käsikirjoitusversio on ladattavissa. Heldan kuvailutiedoista löytyvät alkuperäisen julkaisun tiedot, ja usein mukana on DOI-linkki (tai muu linkitys), jonka välityksellä voi tarkistaa tietoja julkaisijan verkkosivulta. 

Tutkijan kannalta on yleensä hyödyllistä, että tieto omasta julkaisusta leviää tehokkaasti eri palveluihin, näin julkaisu voi herättää laajemmin keskustelua ja siihen voidaan viitata enemmän.

Tutkijan kannalta on yleensä hyödyllistä, että tieto omasta julkaisusta leviää tehokkaasti eri palveluihin, näin julkaisu voi herättää laajemmin keskustelua ja siihen voidaan viitata enemmän. Kaikille avoimien open access –julkaisujen positiivinen vaikutus viittausmääriin on todettu useissa tutkimuksissa (ks. esim. Piwowar et. al 2018).

Julkaisut levisivät 13 palveluun

Löydettävyyttä selvitettiin aluksi Googlen ja Google Scholarin hakutuloksista sekä tekemällä erikseen tarkistuksia muutamista yksittäisistä palveluista. 

Valikoimme mukaan 12 kpl julkaisuja, jotka oli tallennettu Heldaan tammi-maaliskuun 2020 aikana. Selvitys tehtiin kesäkuussa 2020, jolloin julkaisut olivat olleet Heldassa avoimesti saatavilla 3–6 kuukautta. Julkaisut jakautuivat julkaisutyypin mukaan seuraavasti: 4 kpl monografioita, 3 kpl väitöskirjoja, 2 kpl pro graduja, 3 kpl artikkeleita (kirjassa, konferenssijulkaisussa ja lehdessä). Lista otokseen valituista julkaisuista löytyy artikkelin lopusta. 

Valikoimaan sisältyi melko erityyppisiä julkaisuja, jotka oli tallennettu Heldaan samalla ajanjaksolla, ja yhtenä tavoitteena selvityksessä oli saada yleiskuvaa erilaisten aineistojen indeksoituvuuden eroista.

Selvityksen yhteydessä Heldan aineistoja löydettiin 13 eri palvelusta siten, että mukana oli vähintään linkki Heldassa olevan julkaisun tietoihin, lisäksi itse julkaisu saattoi olla ladattavissa palvelusta. Palvelut voidaan ryhmitellä seuraavasti:

  • Kotimaiset tutkimusportaalit: Helsingin yliopiston tutkimusportaali, kansallinen Juuli-tutkimustietoportaali.
  • Kotimaiset hakupalvelut: Finna, Terkko Navigator.
  • Kansainväliset hakupalvelut: BASE, Core, Google Scholar, Microsoft Academic, OpenAIRE, Semantic Scholar.
  • Sosiaalisen median palvelut: Facebook, ResearchGate, Twitter.

Heldan aineistojen prosentuaalinen löydettävyys mainituissa verkkopalveluissa ilmenee kuviosta 1.

Kuvio 1. Helda-julkaisujen (N=12) jakauma eri verkkopalveluissa.

Palveluissa paljon eroavuuksia

Verkkopalveluista neljä oli kotimaisia ja kahdeksan kansainvälisiä. Kolme palveluista oli selkeästi sosiaalista mediaa edustavia: Facebook, ResearchGate ja Twitter. Näihin sisältyi vain mainintoja yksittäisistä julkaisuista sekä linkki Heldaan, ResearchGaten tapauksessa myös yksittäinen julkaisu oli saatavilla palvelun käyttäjille. Koska sosiaalisen median palvelut eivät systemaattisesti haravoi sisältöjä muista palveluista, ne eivät ole rinnastettavissa tässä selvityksessä esiintyviin hakupalveluihin.

Tuloksissa esiintyvät kotimaiset palvelut ovat laajuudeltaan, sisällölliseltä profiililtaan ja toimintaperiaatteiltaan hieman toisistaan eroavia. Helsingin yliopiston omaan tutkimusportaaliin – ja sen taustalla olevaan TUHAT-tutkimustietojärjestelmään – ei automaattisesti indeksoidu aineistoa muista palveluista: Helsingin yliopiston tutkijat tallentavat tiedot julkaisuistaan itse, lisäksi kirjastossa tehdään julkaisutietojen importointia viitetietokannoista. Juuli puolestaan on kotimaisten korkeakoulujen yhteinen tutkimustietoportaali, johon tiedot siirtyvät korkeakoulujen omista järjestelmistä. Finna on kotimaisten muistiorganisaatioiden aineistoa sisältävä palvelu. Terkko Navigator on tutkimusjulkaisuja ja muutakin aineistoa indeksoiva palvelu, joka on kehitetty erityisesti lääketieteen tutkijoiden käyttöön.

Tässä selvityksessä Terkko Navigatorissa esiintyi 67 % Heldan aineistoista, kun HY:n portaalissa ja Finnassa kattavuus oli 50 %. Juulissa puolestaan oli löydettävissä kolmasosa julkaisuista.

Helda-julkaisun kuvailutiedot Coressa (kuvaa klikkaamalla palveluun).

Kansainvälisistä hakupalveluista englantilainen Core on erikoistunut avoimiin aineistoihin, joita se haravoi hyvin laajasti ja systemaattisesti. Erilaiset avoimet arkistot voivat myös hankkia jäsenyyden Coreen, jolloin niiden sisältämien aineistojen kattavuus voi olla erittäin korkea. Heldan kuuluminen Coren haravoimiin tiedontuottajiin selittänee selvitykseen sisältyvien aineistojen 100 % kattavuutta.

Semantic Scholar on tekoälyyn perustuva hakupalvelu, joka haravoi akateemisia julkaisuja. Se sisälsi puolet selvityksessä mukana olleista Heldan julkaisuista. Microsoft Academic on Microsoftin kehittämä hakupalvelu, joka indeksoi laajasti tieteellisiä julkaisuja. Heldan julkaisujen osuus Microsoft Academicissa oli 42 %.

Google Scholarin kattavuus oli vielä kesäkuussa tehdyn selvityksen perusteella vaatimaton, vain 33 %. Sen osalta tehtiin tarkistus erikseen syyskuussa, jolloin kattavuus oli parantunut huomattavasti ja noussut 83 prosenttiin. Tässä käytetyn otoksen perustella aineistojen indeksoituminen Google Scholariin tapahtuu siis suhteellisen hitaasti ja oli sinänsä melko yllättävää.

Julkaisutyypit indeksoituivat eri tavoin

Helda-julkaisun kuvailu Base-hakupalvelussa (kuvaa klikkaamalla palveluun).

Otos pohjautui pieneen aineistoon, joten kovin pitkälle meneviä päätelmiä ja määrällisiä vertailuja eri palveluiden kesken ei sen vuoksi kannata tehdä. Yleisenä havaintona voitiin todeta, että parhaiten haravoinnissa pärjäsivät Core, Base (Bielefeld Academic Search Engine) ja OpenAIRE. Tämä ei ole kovin yllättävää sen vuoksi, että näiden palveluiden kesken on sovittu metatietojen vaihdosta ja synkronoinnista. Lisäksi Base-palvelu on peräisin Bielefeldin yliopistosta, jossa hoidetaan myös haravointia OpenAIRE-portaalia varten.

Helda-julkaisun kuvailutiedot OpenAIRE-portaalissa (kuvaa klikkaamalla palveluun).

Tämän otoksen perusteella voitiin havaita, että ainakin kymmenkunta palvelua indeksoi Heldaan tallennettua aineistoa muutaman kuukauden kuluessa tallennuksesta. Indeksoitumisen kattavuudessa oli havaittavissa eroja etenkin pro gradujen osalta, sillä molemmat otoksessa mukana olleet pro gradut Helda-linkkeineen esiintyivät vain kolmessa palvelussa: Coressa, Basessa ja Google Scholarissa. Aineistotyypin lisäksi eroja kattavuudessa tuotti todennäköisesti myös se, millä periaatteilla eri palvelut ja niiden algoritmit toimivat, indeksoivatko ne esimerkiksi aineiston metadatan lähdelinkkeineen ja indeksoituuko sama julkaisu useasta eri julkaisuarkistosta. Lisäksi aineiston indeksoituvuuteen vaikuttaa eri palvelujen keskinäiset sopimukset sekä kansallisella tasolla korkeakoulujen julkaisutiedonkeruuseen liittyvät velvoitteet ja järjestelmät.

Useita tässä artikkelissa esiintuotuja hakupalveluja on käsitelty myös aiemmassa Think Openin -artikkelissa: Testissä Alternative Access – vaihtoehtoiset tavat päästä kiinni tutkimusartikkeleihin.


Otokseen valitut teokset Heldassa:


Mika Holopainen (TUHAT, ORCID, @mholopa) työskentelee Helsingin yliopiston kirjaston tutkimuksen palveluissa tietoasiantuntijana ja tieteenalayhdyshenkilönä Kumpulan kampuksella.

Kimmo Koskinen (TUHAT, ORCID, @kikoskin) työskentelee Helsingin yliopiston kirjastossa kehityspäällikkönä.