Miten Helsingin yliopiston Helda-julkaisuarkistoon tallennetut avoimet julkaisut leviävät maailmalla? Tätä ei ole aiemmin selvitetty, mutta tässä blogiartikkelissa luodaan katsaus aiheeseen pienen otantatutkimuksen avulla. Kahdentoista julkaisun satunnaisotannan perusteella voidaan todeta, että rinnakkaisjulkaisut leviävät (indeksoituvat) yleisesti ottaen hyvin eri verkkopalveluihin, mutta indeksoitumisessa on myös paljon julkaisutyyppi- ja palvelukohtaisia eroja.
(This article is also available in English.)
Teksti: Mika Holopainen & Kimmo Koskinen
Helsingin yliopiston avoin julkaisuarkisto Helda sisältää laajan valikoiman erityyppisiä aineistoja, kuten tutkimusartikkeleita, opinnäytteitä, sarjajulkaisuja sekä Helda Open Books -kokoelman sisältämiä kirjoja. Heldassa on aineistojen metatiedot sekä pääsääntöisesti myös varsinaiset julkaisut, jotka voi ladata pdf-muodossa. Tosin monissa tapauksissa artikkeleista ei kustantajan linjausten vuoksi ole voitu tallentaa lopullista julkaisua vaan ainoastaan hyväksytty käsikirjoitusversio.
Heldan sisältämien julkaisujen leviämistä ja saatavuutta muissa palveluissa ei ole aiemmin selvitetty. Asia on kuitenkin kiinnostava ja päätimme tutkia asiaa pienimuotoisen otannan avulla. Tavoitteena oli saada yleiskuva Heldan aineistojen indeksoitumisesta joidenkin suurten hakupalveluiden tietokantoihin.
Eri palvelut ovat kehittäneet indeksointiin omat algoritminsa, jotka vaikuttavat siihen, miten tehokkaasti ja kattavasti indeksointi eri lähteistä toteutuu. Indeksoitumisella tarkoitetaan tässä julkaisun kuvailutietojen eli metadatan kopioitumista muihin palveluihin siten, että mukana tiedoissa on linkki Heldaan, jossa itse julkaisu tai sen käsikirjoitusversio on ladattavissa. Heldan kuvailutiedoista löytyvät alkuperäisen julkaisun tiedot, ja usein mukana on DOI-linkki (tai muu linkitys), jonka välityksellä voi tarkistaa tietoja julkaisijan verkkosivulta.
Tutkijan kannalta on yleensä hyödyllistä, että tieto omasta julkaisusta leviää tehokkaasti eri palveluihin, näin julkaisu voi herättää laajemmin keskustelua ja siihen voidaan viitata enemmän.
Tutkijan kannalta on yleensä hyödyllistä, että tieto omasta julkaisusta leviää tehokkaasti eri palveluihin, näin julkaisu voi herättää laajemmin keskustelua ja siihen voidaan viitata enemmän. Kaikille avoimien open access –julkaisujen positiivinen vaikutus viittausmääriin on todettu useissa tutkimuksissa (ks. esim. Piwowar et. al 2018).
Julkaisut levisivät 13 palveluun
Löydettävyyttä selvitettiin aluksi Googlen ja Google Scholarin hakutuloksista sekä tekemällä erikseen tarkistuksia muutamista yksittäisistä palveluista.
Valikoimme mukaan 12 kpl julkaisuja, jotka oli tallennettu Heldaan tammi-maaliskuun 2020 aikana. Selvitys tehtiin kesäkuussa 2020, jolloin julkaisut olivat olleet Heldassa avoimesti saatavilla 3–6 kuukautta. Julkaisut jakautuivat julkaisutyypin mukaan seuraavasti: 4 kpl monografioita, 3 kpl väitöskirjoja, 2 kpl pro graduja, 3 kpl artikkeleita (kirjassa, konferenssijulkaisussa ja lehdessä). Lista otokseen valituista julkaisuista löytyy artikkelin lopusta.
Valikoimaan sisältyi melko erityyppisiä julkaisuja, jotka oli tallennettu Heldaan samalla ajanjaksolla, ja yhtenä tavoitteena selvityksessä oli saada yleiskuvaa erilaisten aineistojen indeksoituvuuden eroista.
Selvityksen yhteydessä Heldan aineistoja löydettiin 13 eri palvelusta siten, että mukana oli vähintään linkki Heldassa olevan julkaisun tietoihin, lisäksi itse julkaisu saattoi olla ladattavissa palvelusta. Palvelut voidaan ryhmitellä seuraavasti:
- Kotimaiset tutkimusportaalit: Helsingin yliopiston tutkimusportaali, kansallinen Juuli-tutkimustietoportaali.
- Kotimaiset hakupalvelut: Finna, Terkko Navigator.
- Kansainväliset hakupalvelut: BASE, Core, Google Scholar, Microsoft Academic, OpenAIRE, Semantic Scholar.
- Sosiaalisen median palvelut: Facebook, ResearchGate, Twitter.
Heldan aineistojen prosentuaalinen löydettävyys mainituissa verkkopalveluissa ilmenee kuviosta 1.

Palveluissa paljon eroavuuksia
Verkkopalveluista neljä oli kotimaisia ja kahdeksan kansainvälisiä. Kolme palveluista oli selkeästi sosiaalista mediaa edustavia: Facebook, ResearchGate ja Twitter. Näihin sisältyi vain mainintoja yksittäisistä julkaisuista sekä linkki Heldaan, ResearchGaten tapauksessa myös yksittäinen julkaisu oli saatavilla palvelun käyttäjille. Koska sosiaalisen median palvelut eivät systemaattisesti haravoi sisältöjä muista palveluista, ne eivät ole rinnastettavissa tässä selvityksessä esiintyviin hakupalveluihin.
Tuloksissa esiintyvät kotimaiset palvelut ovat laajuudeltaan, sisällölliseltä profiililtaan ja toimintaperiaatteiltaan hieman toisistaan eroavia. Helsingin yliopiston omaan tutkimusportaaliin – ja sen taustalla olevaan TUHAT-tutkimustietojärjestelmään – ei automaattisesti indeksoidu aineistoa muista palveluista: Helsingin yliopiston tutkijat tallentavat tiedot julkaisuistaan itse, lisäksi kirjastossa tehdään julkaisutietojen importointia viitetietokannoista. Juuli puolestaan on kotimaisten korkeakoulujen yhteinen tutkimustietoportaali, johon tiedot siirtyvät korkeakoulujen omista järjestelmistä. Finna on kotimaisten muistiorganisaatioiden aineistoa sisältävä palvelu. Terkko Navigator on tutkimusjulkaisuja ja muutakin aineistoa indeksoiva palvelu, joka on kehitetty erityisesti lääketieteen tutkijoiden käyttöön.
Tässä selvityksessä Terkko Navigatorissa esiintyi 67 % Heldan aineistoista, kun HY:n portaalissa ja Finnassa kattavuus oli 50 %. Juulissa puolestaan oli löydettävissä kolmasosa julkaisuista.

Kansainvälisistä hakupalveluista englantilainen Core on erikoistunut avoimiin aineistoihin, joita se haravoi hyvin laajasti ja systemaattisesti. Erilaiset avoimet arkistot voivat myös hankkia jäsenyyden Coreen, jolloin niiden sisältämien aineistojen kattavuus voi olla erittäin korkea. Heldan kuuluminen Coren haravoimiin tiedontuottajiin selittänee selvitykseen sisältyvien aineistojen 100 % kattavuutta.
Semantic Scholar on tekoälyyn perustuva hakupalvelu, joka haravoi akateemisia julkaisuja. Se sisälsi puolet selvityksessä mukana olleista Heldan julkaisuista. Microsoft Academic on Microsoftin kehittämä hakupalvelu, joka indeksoi laajasti tieteellisiä julkaisuja. Heldan julkaisujen osuus Microsoft Academicissa oli 42 %.
Google Scholarin kattavuus oli vielä kesäkuussa tehdyn selvityksen perusteella vaatimaton, vain 33 %. Sen osalta tehtiin tarkistus erikseen syyskuussa, jolloin kattavuus oli parantunut huomattavasti ja noussut 83 prosenttiin. Tässä käytetyn otoksen perustella aineistojen indeksoituminen Google Scholariin tapahtuu siis suhteellisen hitaasti ja oli sinänsä melko yllättävää.
Julkaisutyypit indeksoituivat eri tavoin

Otos pohjautui pieneen aineistoon, joten kovin pitkälle meneviä päätelmiä ja määrällisiä vertailuja eri palveluiden kesken ei sen vuoksi kannata tehdä. Yleisenä havaintona voitiin todeta, että parhaiten haravoinnissa pärjäsivät Core, Base (Bielefeld Academic Search Engine) ja OpenAIRE. Tämä ei ole kovin yllättävää sen vuoksi, että näiden palveluiden kesken on sovittu metatietojen vaihdosta ja synkronoinnista. Lisäksi Base-palvelu on peräisin Bielefeldin yliopistosta, jossa hoidetaan myös haravointia OpenAIRE-portaalia varten.

Tämän otoksen perusteella voitiin havaita, että ainakin kymmenkunta palvelua indeksoi Heldaan tallennettua aineistoa muutaman kuukauden kuluessa tallennuksesta. Indeksoitumisen kattavuudessa oli havaittavissa eroja etenkin pro gradujen osalta, sillä molemmat otoksessa mukana olleet pro gradut Helda-linkkeineen esiintyivät vain kolmessa palvelussa: Coressa, Basessa ja Google Scholarissa. Aineistotyypin lisäksi eroja kattavuudessa tuotti todennäköisesti myös se, millä periaatteilla eri palvelut ja niiden algoritmit toimivat, indeksoivatko ne esimerkiksi aineiston metadatan lähdelinkkeineen ja indeksoituuko sama julkaisu useasta eri julkaisuarkistosta. Lisäksi aineiston indeksoituvuuteen vaikuttaa eri palvelujen keskinäiset sopimukset sekä kansallisella tasolla korkeakoulujen julkaisutiedonkeruuseen liittyvät velvoitteet ja järjestelmät.
Useita tässä artikkelissa esiintuotuja hakupalveluja on käsitelty myös aiemmassa Think Openin -artikkelissa: Testissä Alternative Access – vaihtoehtoiset tavat päästä kiinni tutkimusartikkeleihin.
Otokseen valitut teokset Heldassa:
- Alfasta oomegaan: Uuden testamentin kreikan tukipaketti
- Tekstejä rautakauden Levantista
- Täydellistyvä kaupunki, kiehtova urbaani
- Kansanvalta, ikä, vero-oikeus
- Veganism and Plant-Based Eating: Analysis of Interplay Between Discursive Strategies and Lifestyle Political Consumerism
- Drug Traders on a Local Dark Web Marketplace
- Data mining of petrophysical and lithogeochemical borehole data to elucidate the origin of seismic reflectivity within the Kevitsa Ni-Cu-PGE -bearing intrusion, northern Finland
- Impact of vatinoxan on cardiopulmonary and gastrointestinal effects of medetomidine and detomidine in horses
- Biomarkers of intrauterine hypoxia and perinatal asphyxia, and gestational age as predictors of neonatal outcome
- The Diverse Mesoscopic Structures in Rapakivi Granites of Southeastern Finland : Episyenites and related processes
- The impact of forest health status on natural enemies and associates of the European spruce bark beetle Ips typographus (L.)
- Härkäpavun jäännöstypen otto eri viljelykasveilla
Mika Holopainen (TUHAT, ORCID, @mholopa) työskentelee Helsingin yliopiston kirjaston tutkimuksen palveluissa tietoasiantuntijana ja tieteenalayhdyshenkilönä Kumpulan kampuksella.
Kimmo Koskinen (TUHAT, ORCID, @kikoskin) työskentelee Helsingin yliopiston kirjastossa kehityspäällikkönä.