Helsingin yliopiston kieliteknologien kirjoittaman HFST-ohjelman avointa lähdekoodia on integroitu Microsoftin Word-tekstinkäsittelytyökaluun. HFST tulee sanoista Helsinki Finite-State Technology, joka tarkoittaa suomeksi äärellistilaista teknologiaa. Käytännössä ohjelma tekee tekstistä mm. morfologisia eli sanojen muodostukseen liittyviä analyysejä, joiden perusteella se voi arvioida tekstin oikeinkirjoitusta sanakirjan avulla.
– Valtakielien lisäksi HFST:tä hyödyntäviä sanakirjoja on nyt tarjolla grönlannista, fääristä ja kolmesta eri saamen kielestä. Lisäksi on kehitteillä sanakirjoja suomen sukukielille Koneen Säätiön tukemien hankkeiden kautta, kertoo FIN-CLARINin tutkimusjohtaja Krister Lindén.
Hanke lähti tuottamaan kielityökalua vähemmistökielille, joita Microsoft ei itse tue kyseisten markkinoiden pienuuden takia.
– Tavoitteemme on tärkeä, koska yhä isompi määrä tiedosta syntyy suoraan digimaailmaan. Ilman kunnollista kielityökalutukea vähemmistökielet jäävät vähemmälle käytölle, Lindén huomauttaa.
Hankkeessa on tehty pohjoismaista yhteistyötä. Itse HFST-ohjelma on kehitetty Helsingin yliopistolla. Norjalaiset lingvistit Tromssassa ovat testanneet koodia ja tuoneet siihen sanakirjoja ja tanskalaiset ohjelmoijat Odensessa ovat hoitaneet koodin liittämisen MS Wordiin.
HFST-ohjelmat ovat tarjolla myös OpenOfficeen ja muihin verkkoratkaisuihin.