Avoin saatavuus puhutti Madridissa

Viime vuosina terminologia-alan sisällä on tunnettu huolta siitä, kykeneekö terminologinen työskentely vastaamaan räjähdysmäisesti kasvavan termistöjen tarpeen asettamiin haasteisiin. Tiedon verkostoituessa ja tiedonkulun nopeutuessa sekä termit että uudet käsitteet leviävät niin nopeasti, ettei perinteisen terminologisen työn menetelmin voida pysyä mukana kehityksessä. Muuttuvan toimintaympäristön lisäksi huolta on aiheuttanut alan hajanaisuus ja siitä seuraava terminologisten resurssien huono yhteensopivuus.

Tämän vuoden kesäkuussa Madridissa järjestettiin seminaari  Creation, Harmonization and Application of Terminology Resources (CHAT) terminologisia resursseja kehittäville, yhdenmukaistaville ja käyttäville osapuolille, osana laajempaa terminologia- ja ontologia-alan yhteistä TKE-konferenssia.

Terminologisilla resursseilla tarkoitetaan yleensä termitietokantoja, terminhallintatyökaluja, termistöjen kuvailuun käytettäviä metakieliä ja sen sellaista. Terminhallintatyökalut ovat lisensoituja tietokoneohjelmia, joita valmistavat ja myyvät kieliteknologia-alan yritykset. Terminologiset tietokannat ovat laajoja termistöjä tai termistökokoelmia, jotka on tarkoitettu joko vapaaseen tai rajoitettuun käyttöön. Erityisesti vapaasti käytettäviä termitietokantojen kokoavat ja ylläpitävät julkiset toimijat: terminologia-alan järjestöt, yliopistot, kirjastot sekä valtioiden virastot ja tutkimuslaitokset. Saatavuudeltaan rajoitettuja termistöjä kokoavat myös eri alojen yritykset oman sisäisen käännös- ja lokalisointityönsä tueksi. Termistöjä kuvailevia metakieliä puolestaan kehittelevät sellaiset kansainväliset yhteistyöjärjestöt kuin standardointijärjestö ISO tai hiljattain lakkautettu lokalisointikonsortio LISA.

CHAT-seminaarin tarkoituksena oli koota yhteen eri resursseja kehittävät ja ylläpitävät osapuolet, mikä viittaa siihen, etteivät ne ilman CHATin kaltaisia tilaisuuksia useinkaan kohtaa. Kohtaamisen järjestäjänä CHAT onnistui hyvin, vaikka osanottajat painottuivatkin pääasiassa akateemiselle ja julkiselle sektorille.

Madridin esitelmissä esitettiin käsillä oleviin ongelmiin erilaisia ratkaisuja. Termityön nopeuttamiseksi esiteltiin keinoja termien etsinnän automatisoimiseksi. Perinteisessä termityössähän termit valikoidaan käsin alan kirjoituksista ja asiantuntijoilta. Seminaarissa näytettiin terminlouhintaohjelmia, jotka etsivät ne annetuista aineistoista automaattisesti laskemalla kullekin sanalle termimäisyyttä kuvaavan indeksin. Tietyn indeksirajan ylittäneet sanat otetaan käsin tarkasteltavaksi ja tästä joukosta valitaan sitten termit. Jos terminologi saa työnsä lähtökohdaksi valmiin listan termejä, osa hänen entisestä työstään on siis jo tehty ja prosessi nopeutuu.

Osassa puheenvuoroja nimettiin kuitenkin varsinaiseksi ongelmaksi se, ettei termistöjä joko löydä tai saa käyttää – ei niinkään se, ettei niitä olisi. Toisin sanoen resursseja kyllä on, mutta niitä ei syystä tai toisesta saada käyttöön. Siksi samaa työtä tehdään uudestaan eivätkä ponnistelut kohdistu sinne, missä terminologian aukot todellisuudessa ovat. Korkean profiilin vastaus ongelmaan on META-NET-verkosto, joka pyrkii tuomaan digitaaliset aineistot niitä tarvitsevien saataville tarjoamalla valmiit kuvailuskeemat ja avoimiin lisensseihin perustuvat käyttöoikeusmallit aineistoille. Osallistuminen META-NETin toimintaan on houkuttelevaa erityisesti silloin, kun tuotetaan julkisin varoin toteutettuja aineistoja, joilta ei odoteta liiketaloudellista voittoa. Skeptisemmin siihen suhtautuvat kieliteknologia-alan yritykset, jotka pelkäävät avoimien lisenssien vievän niiltä mahdollisuuden myydä tuotteitaan.

Keskustelussa terminologisten resurssien tulevaisuudesta osapuolia erottavat luontaisista intresseistä ja rooleista seuraavien näkemyserojen lisäksi myös kielipoliittisesta taustasta juontuvat erot. Kieliteknologisia palveluita tuottavat yritykset ovat pääsääntöisesti suurilta kielialueilta, joiden suuret puhujamäärät takaavat tuotteille riittävät markkinat. Julkisin varoin taas ylläpidetään kieliteknologisia resursseja (kuten termitietokantoja) erityisesti sellaisissa maissa, joiden kansallis- tai pääkielten puhujamäärät ovat niin pieniä, että yksityinen sektori tuskin kykenisi tuottamaan välttämättömiä kieliteknologisia palveluita. Pienen kielen näkökulmasta onkin helppo nähdä aineistojen vapaan saatavuuden edut. Kun aineistot on alun perin tuotettu yhteisin voimin, tuntuu niiden jakaminenkin vain luonnolliselta.