E-thesiksen maailmankartta

e-thesis-map-2007-09-pieni.jpg

Julkaisuarkistoja mietitään edelleen valitettavan usein pelkästään julkaisijoiden ja julkaisemisen näkökulmasta. Jotta niiden toiminta olisi perusteltavissa, aineistoille ja palveluille tarvitaan kuitenkin myös käyttäjiä, ja jotta käyttö olisi todennettavissa, tarvitaan tilastointia. Helsingin yliopiston opinnäytteitä ja sarjajulkaisuja jo syksystä 1999 lähtien julkaisseen E-thesis-palvelun käyttöä on seurattu toki aiemminkin (ks. “Ystävämme Google: E-thesiksen käyttötilastojen kertomaa“, Tietolinja 1/2006), mutta E-thesiksen julkaisujen siirto DSpace-ympäristöön helmikuussa 2007 on pakottanut miettimään uusia ratkaisuja myös tilastoinnin osalta.

Yksi Kansalliskirjaston kirjastoverkolle tarjoamassa Doria-palvelussa (Doriasta ja sen päämääristä ks. “Kansalliskirjaston DSpace-projekti etenee“, Tietolinja 2/2006) hyödyntämien DSpace- ja Manakin-ohjelmistojen heikkouksista on näet nimenomaan aineistojen käytön tilastointi, joka on toistaiseksi lievästi sanottuna puutteellista. Muutamien muiden DSpace-arkistojen esimerkin innoittamina olemme kokeilleet (“lopullista” ratkaisua odotellessa) Google Analytics -palvelua, joka tarjoaa ilmaista käytön tilastointia kaikille siitä kiinnostuneille verkkosivustoille.

Vaikka Google Analyticskaan ei täytä ihan kaikkia tarpeitamme, palvelu tarjoaa kuitenkin runsaasti mielenkiintoista dataa ja myös havainnollisia karttoja ja kaavioita. Yhdistettynä siihen mitä ennestään tiedämme E-thesis-palvelun julkaisujen käytöstä, Analyticsin keräämien tietojen avulla saa varsin hyvän kuvan palvelun käytöstä ja sen trendeistä.

Google Analyticsin toiminta perustuu verkkosivuille lisättävään koodinpätkään, joka ottaa aina sivua avattaessa yhteyden Googlen tilastointipalvelimeen. Vastaavia palveluita on toki ollut olemassa jo aiemminkin, mutta Google Analytics vaikuttaa poikkeuksellisen hyvin toteutetulta, ja sen kapasiteetti riittää nykyään myös Dorian kaltaisten suurten ja paljon käytettyjen verkkopalvelinten tarpeisiin.

Meidän kannaltamme ongelmaksi tosin jää se, että varsinaisten julkaisujen eli pdf-tiedostojen käyttö jää ainakin toistaiseksi Analyticsin tilastoinnin ulkopuolelle, eikä tämän puutteen korjaamiseen taida olla mitään ihan siistiä tai helppoa keinoa. Koska huomattava osa E-thesis-palvelun julkaisujen käyttäjistä päätyy esim. Googlen tai Google Scholarin haun kautta suoraan pdf-tiedostoon käymättä millään muulla E-thesiksen sivulla, suuri osa kävijöistä jää tilastoinnin ulkopuolelle ja sen tuottamat absoluuttiset luvut ovat siis liian pieniä. Lisäksi pdf-tiedostojen jääminen tilastoinnin ulkopuolelle vääristää myös esim. käytön maakohtaisia jakaumia, sillä aiemman tutkimuksen perusteella (ks. em. Tietolinja-juttu) erityisesti juuri ulkomaiset tiedonhakijat päätyvät E-thesiksen julkaisujen pariin yleensä nimenomaan hakukoneiden kautta.

Näistä varauksista huolimatta etenkin Google Analyticsin tuottama maailmankartta E-thesis-palvelun sivuille tehdyistä vierailuista on ollut kiehtovaa seurattavaa. Vaikka perinteisetkin tilastointiohjelmat pystyvät tuottamaan kohtuullisen luotettavia maakohtaisia käyttötilastoja käyttäjien IP-osoitteiden ja domain-nimien perusteella, Analyticsin kartta havainnollistaa käyttöä kuitenkin aivan toisella tavalla. Perusideana on se, että kartan valkoiset alueet muuttuvat vihreiksi sitä mukaa kun niistä kertyy enemmän vierailuja. Kartasta pääsee myös eteenpäin maakohtaiseen listaukseen, jossa pääsee näkemään mistä kaupungeista käyttäjät ovat tulleet (USA:n osalta välissä on tosin myös osavaltiokohtainen jaottelu).

E-thesiksen osalta kartta tuo hyvin esiin sen, että palvelua käytetään ympäri maailmaa. Vaikka Suomi nousee väistämättä kartalta esiin tummanvihreänä läiskänä, muuten kartta on lähes kauttaaltaan vaaleanvihreä. Vaikka vaaleanvihreän vaaleudessakin on toki aste-eroja, suurempia yhtenäisiä valkoisia alueita on kolmen viikon jälkeen jäljellä lähinnä vain Afrikan keskiosissa ja Keski-Aasiassa, muuten valkoisiksi on jäänyt lähinnä vain yksittäisiä pieniä maita, joista suurinta osaa voi tuskin pitää erityisen yllättävinä (Pohjois-Korea, Burma/Myanmar, Afganistan, Somalia, jne.).

Absoluuttisina lukuina E-thesiksen 20 ahkerinta käyttäjämaata olivat testiajanjaksona seuraavat:

  1. Suomi (18749 vierailua)
  2. USA (684)
  3. Ruotsi (348)
  4. Intia (263)
  5. Iso-Britannia (258)
  6. Saksa (167)
  7. Kiina (125)
  8. Alankomaat (117)
  9. Kanada (105)
  10. Italia (91)
  11. Ranska (89)
  12. Australia (88)
  13. Brasilia (85)
  14. Espanja (60)
  15. Indonesia (58)
  16. Malesia (55)
  17. Turkki (55)
  18. Puola (55)
  19. Japani (54)
  20. Iran (54)

Kuten jo edellä todettiin, Suomen ja muiden maiden välinen kuilu tasoittuisi merkittävästi, jos myös pdf-tiedostot saataisiin mukaan tilastointiin. Näidenkin tilastojen perusteella näyttää joka tapauksessa siltä, että E-thesiksen julkaisuja käytetään yllättävän paljon erityisesti kehitysmaissa. Syyksi voi ehkä arvailla sitä, että näissä maissa maksullisia aineistoja on heikommin saatavilla ja E-thesiksen kaltaisilla open access -palveluilla on suurempi merkitys tieteellisen tiedon hankintakanavana.

Yksittäisten maiden sisällä olen yrittänyt seurata, nousevatko tunnetut yliopistokaupungit esiin listauksissa. Jossain määrin näin on käynytkin (esim. Ruotsin kolmen kärki on 1. Tukholma 2. Göteborg 3. Uppsala), mutta ehkä kuitenkin hitaammin kuin etukäteen oletin. Samoin Suomen kartta on jo varsin täynnä pallukoita, vaikka kärjestä löytyvätkin pääosin tutut yliopistokaupungit (Helsingin jälkeen Tampere, Turku ja Oulu). Tämä kertoo varmasti siitä, ettei palvelun käyttö rajaudu pelkästään akateemiseen yleisöön, vaan julkaisujen pariin päätyy runsaasti muitakin tiedonhakijoita.

Vaikka Google Analyticsin tarjoamat kartat ja listaukset ovat kiehtovia, niidenkään avulla ei pysty kunnolla tavoittamaan sitä, mitä palvelustamme ja sen julkaisuista oikein ajatellaan käyttäjien keskuudessa tai miten hyödyllisiksi ne koetaan. Mitähän mahtoivat esim. palveluumme Ulan Batorista Mongoliasta vajaan kuukauden aikana päätyneet kaksi vierailijaa (saattaa toki olla, että kyseessä oli sama henkilö) miettiä Helsingin yliopiston logon ilmestyessä tietokoneensa ruudulle?