Tekstiä tuottava tekoäly ja tieteen avoimuus

Keskusteluun kykenevä tekoäly on tehnyt tekoälyn kehittymisen hyvin konkreettiseksi. Harppaukset ovat herättäneet paljon keskustelua tekoälyn kehityskaarista ja sen vaikutuksista esimerkiksi työelämään, opiskeluun tai tieteeseen. Läpinäkyvyyden näkökulmasta generatiivisiin tekoälyihin liittyy avoimia kysymyksiä, jotka ovat keskeisiä tiedon laadun arvioimisessa: Millä logiikalla kontekstia tulkitseva kielimalli valitsee sanoja tekstiinsä? Mihin lähteisiin tekoäly perustaa vastauksensa? Millä tavalla tekoäly arvioi lähdeaineistojen laatua ja luotettavuutta? Tutkitun tiedon painoarvoa tekoälyratkaisuissa ei usein tunneta – tieteellisen tiedon avoimuudella (open access) voisi olla tässä oma merkityksensä.

Teksti: Salla-Maaria Laaksonen

Tekoälyn kehitys on noussut yleiseen tietoisuuteen generatiivisten tekoälyjen ilmestyttyä laajempaan käyttöön. Generatiivinen tekoäly tarkoittaa tekoälysovellusta, joka luo sisältöjä vastauksena ihmisen pyyntöön: tekstiä, kuvia ja videoita. Marraskuussa 2022 OpenAI julkaisi avoimeen beta-testaukseen ChatGPT-kielimallin, jota kuka tahansa verkon käyttäjä voi käydä jututtamassa.

ChatGPT pohjautuu OpenAI:n kehittämälle GPT-mallille, joka on niin sanottu suuri kielimalli (large language model, LLM). Se tarkoittaa sanojen ja sanajonojen esiintymisen todennäköisyyksille perustuvaa mallia, joka osaa ennustaa annetulle tekstipätkälle jatkoa tai tuottaa pyydetyn mukaista tekstiä.

LLM-tekoälyä ohjataan ja sen kanssa voi kommunikoida luonnollisella kielellä. Tämä erottaa sen aiemmista tekoälyistä, joiden kanssa vuorovaikuttaminen on käytännössä vaatinut koodaustaitoa. Keskustelutaitoinen ChatGPT onkin myös esimerkki viestivästä tekoälystä eli algoritmistä, joka kykenee luonnollisella kielellä käytävään keskusteluun.

Kielimallit opetetaan käyttämällä opetusaineistoja, jotka ovat tyypillisesti valtavia tekstikokoelmia eli korpuksia. Modernit suuret kielimallit pohjaavat lisäksi neuroverkoille, joiden avulla ne tekevät päätelmiä ja joita myös hyödynnetään niiden kouluttamisessa – käytännössä tekoäly kouluttaa toista tekoälyä.

Kielimallin kouluttaminen siis vaatii valtavan määrän tekstimassaa, jonka sisältö ja laatu vaikuttavat suuresti siihen, mitä malli pystyy tuottamaan. Keskeinen tekijä viestivien tekoälyjen kehityksessä onkin ollut kielimallien aineistojen koko.

Mitä GPT-kielimalli ”tietää”?

GPT-malli on yksinkertaistettuna hyvin toimiva, ennustava tekstinsyöttöjärjestelmä, joka osaa toistaa ja yhdistellä aiemmin luotua tekstiä. GPT-mallin voima perustuu isolle tietoaineistolle, jota se pystyy käsittelemään nopeasti ja yhdistelemällä eri dokumenttien sisältöjä.

Käytettyjen opetusaineistojen sisältö ei useinkaan ole täsmällisesti tiedossa. Esimerkiksi GPT-3 -malli on koulutettu 45 terabitin aineistolla, johon kuuluu muun muassa valtava määrä verkosta koneellisesti kerättyä tekstiä, kaksi eri korpusta verkosta löytyviä kirjoja sekä englanninkielisen Wikipedian koko sisältö. Mallin koulutusaineisto päättyy toistaiseksi vuoteen 2021.

Kuten aiemmatkin koneoppimismallit, myös isojen kielimallien ulosanti on varsin riippuvainen niiden opetusaineistosta. Tekoälyn vinoumista on puhuttu jo vuosikymmenien ajan automaattisten luokittelijoiden yhteydessä. Myös niissä on yleensä kysymys opetusaineiston laadusta ja edustavuudesta: jos opetusaineistossa on esimerkiksi enemmän kuvia valkoihoisista kuin tummaihoisista, malli oppii tunnistamaan paremmin valkoihoisia ihmisiä.

Myös GPT-malleissa näyttäisi olevan vastaavia sukupuoleen ja ihonväriin liittyviä vinoumia, vaikka OpenAI on yrittänyt korjata niitä. Huomionarvoista on ylipäätään se, että opetusaineiston teksteistä valtaosa on todennäköisesti valkoihoisten länsimaisten henkilöiden tuottamaa, minkä vuoksi GPT-malli toisintaa heidän aiheitaan ja kirjoitustyyliään — puhumattakaan siitä, että opetusaineisto on valtaosin englanninkielistä.

Generatiivinen tekoäly ei myöskään ainakaan toistaiseksi ole kovinkaan taitava arvioimaan lähdeaineistojen laatua ja luotettavuutta. Julkisuudessa on keskusteltu esimerkiksi siitä, miten ChatGPT esittää totena mediassa esitettyjä vääriä väitteitä tai keksii ihmisiä ja julkaisuja, joita ei ole olemassa. Tieteentekijän tai vaikkapa journalistin apurina se on siis epäluotettava.

Voisiko avoin tiede tuottaa parempaa tekoälyä?

Jokainen tieteellisten lehtien maksumuurien kanssa tuskaillut voinee päätellä, että suuri osa tieteellisestä tiedosta tai julkaisuista ei ole avoimesti saatavilla eikä siten todennäköisesti mukana kielimallien opetusaineistojen tekstimassassa – ainakaan abstraktia enempää.

Nykyisellään vaikuttaa siltä, että luotettavinta tietoa GPT-kielimallien opetusaineistoissa on Wikipedian sisältö. Toki tiedämme, että sekään ei ole aukotonta, täysin neutraalia saatika vapaata vinoumista, jotka periytyvät sen käyttäjäkunnalta.

Jos tieteellisiä tekstejä olisi enemmän avoimesti ja koneluettavasti saatavilla, ne olisivat helpommin hyödynnettävissä myös kielimallien kehityksessä. Tämä voisi periaatteessa lähtökohtaisesti parantaa kielimallien mahdollisuuksia tuottaa paikkansapitävää tekstiä tieteellisistä aiheista.

Avoin tiedejulkaiseminen, eli tieteellisten artikkeleiden ja kirjojen julkaiseminen vapaasti saataville, saattaakin olla yhtäkkiä yhdellä yllättävällä lisätavalla hyödyllistä. Tieteen tulokset kuuluvat kaikille, mikseivät siis myös tekoälylle?

Pienemmässä mittakaavassa tällaista työtä tehdään jo. Esimerkiksi tieteellisillä teksteillä erikseen hienosäädetty SciBERT-kielimalli suoriutuu paremmin luokittelutehtävistä, joiden aihepiiri liittyy tieteeseen. Elicit-hakukone puolestaan hyödyntää GPT-3-mallia ehdottaakseen tieteellisiä artikkeleita vastauksena käyttäjän kysymykseen.

Avoin tiedejulkaiseminen, eli tieteellisten artikkeleiden ja kirjojen julkaiseminen vapaasti saataville, saattaakin olla yhtäkkiä yhdellä yllättävällä lisätavalla hyödyllistä. Tieteen tulokset kuuluvat kaikille, mikseivät siis myös tekoälylle?

Avointa ja avointa

Kielimallien ruokkiminen tieteellisellä tekstillä ei kuitenkaan ole hopealuoti. Vaikka kielimalleja kehittävät yritykset ja tutkijat julkaisevat avoimesti myös tieteellisellä kentällä, neuroverkkojen toimintaa ei pystytä täysin seuraamaan ja avaamaan. Ei ole selvää, millä logiikalla neuroverkkoihin pohjautuva, kontekstia tulkitseva kielimalli milloinkin lopulta valitsee sanoja tekstiinsä.

Generatiivisen tekoälyn toimintalogiikka onkin oikeastaan lähtökohtaisesti ristiriidassa tieteen avoimuuden kanssa. Vaikka ChatGPT on ainakin tähän saakka ollut verkossa kaikkien saatavilla, on oikeaan avoimuuteen vielä matkaa — taustalla toimivan yhtiön nimestä huolimatta.

Suurten kielimallien oppimisprosessia ei myöskään ole suunniteltu tieteellistä tietoa silmällä pitäen. Tieteellinen tieto on tieteellisen prosessin kautta syntynyttä, perusteltavissa olevaa tietoa, joka rakentuu aiemman tiedon pohjalle. Uusi tutkimustulos saattaa laajentaa tai haastaa vanhoja tutkimustuloksia, ja toistojen kautta tietoa vahvistetaan tai kiistetään. Tieteellinen teksti on osa historiallista jatkumoa ja kerroksellisuutta.

Generatiiviset tekoälyt ovat jossakin muodossa tulleet jäädäkseen. Mutta miten niitä voisi auttaa ymmärtämään tieteellistä prosessia ja kunnioittamaan tieteellistä tietoa? Samalla tavalla kuin tieteellinen tieto on eri asia kuin arkitieto, on eri asia suunnitella geneeristä tekoälyä kuin sellaista tekoälyä, joka toimisi nimenomaan tieteellisen tietämyksen edistäjänä.

Tämä blogikirjoitus on rinnakkaisjulkaistu myös Vastuullinentiede.fi-sivustolla.

Dosentti, VTT Salla-Maaria Laaksonen (TUHAT, ORCID, @jahapaula) on viestinnän, teknologian ja organisaatioiden tutkija Helsingin yliopistossa. Hän tutkii teknologisen julkisuuden valta-asetelmia sekä datan, algoritmien ja automaation käyttöä organisaatioissa. Lisäksi Salla-Maaria on tiedeviestinnän opettaja ja kouluttaja.

Kirjoittaja kiittää väitöskirjatutkija FM Pihla Toivasta tekstin kommentoinnista.