Tutkijoiden oikeinkirjoitusohjelma integroitu Microsoft Wordiin

Helsingin yliopiston kieliteknologien kirjoittaman HFST-ohjelman avointa lähdekoodia on integroitu Microsoftin Word-tekstinkäsittelytyökaluun. HFST tulee sanoista Helsinki Finite-State Technology, joka tarkoittaa suomeksi äärellistilaista teknologiaa. Käytännössä ohjelma tekee tekstistä mm. morfologisia eli sanojen muodostukseen liittyviä analyysejä, joiden perusteella se voi arvioida tekstin oikeinkirjoitusta sanakirjan avulla.

– Valtakielien lisäksi HFST:tä hyödyntäviä sanakirjoja on nyt tarjolla grönlannista, fääristä ja kolmesta eri saamen kielestä. Lisäksi on kehitteillä sanakirjoja suomen sukukielille Koneen Säätiön tukemien hankkeiden kautta, kertoo FIN-CLARINin tutkimusjohtaja Krister Lindén.

Kuvassa ohjelma tarkistaa grönlanninkielistä tekstiä.

Kuvassa ohjelma tarkistaa grönlanninkielistä tekstiä.

Hanke lähti tuottamaan kielityökalua vähemmistökielille, joita Microsoft ei itse tue kyseisten markkinoiden pienuuden takia.

– Tavoitteemme on tärkeä, koska yhä isompi määrä tiedosta syntyy suoraan digimaailmaan. Ilman kunnollista kielityökalutukea vähemmistökielet jäävät vähemmälle käytölle, Lindén huomauttaa.

Hankkeessa on tehty pohjoismaista yhteistyötä. Itse HFST-ohjelma on kehitetty Helsingin yliopistolla. Norjalaiset lingvistit Tromssassa ovat testanneet koodia ja tuoneet siihen sanakirjoja ja tanskalaiset ohjelmoijat Odensessa ovat hoitaneet koodin liittämisen MS Wordiin.

HFST-ohjelmat ovat tarjolla myös OpenOfficeen ja muihin verkkoratkaisuihin.