Miten lahjoittaa dataa ja miksi

Fiskmö-hanke on kiinnostunut kaikista suomi–ruotsi- ja ruotsi–suomi-käännöksistä. Hankimme dataa pääasiassa kolmella tavalla: käännösmuistilahjoituksilla, tekstejä pomimalla ja suodattamalla sekä dataa kohdistamalla.

Kolme tapaa lahjoittaa:

  • Vaihtoehto A: Käännösmuistilahjoitus

    • Lahjoittaja luovuttaa käännösmuistinsa .tmx-muodossa tai vastaavassa. Tämä tapa on yksinkertaisin, ja mahdollista silloin, kun käännösmuistit eivät sisällä arkaluontoista tai salaista tietoa. Riippuen siitä, mitä lahjoittajan kanssa sovitaan, datasta voidaan joko tehdä julkista tai vain Fiskmö-hankkeen sisäiseen tutkimus- ja koulutuskäyttöön tarkoitettua.

  • Vaihtoehto B: Tekstin poiminta ja suodatus

    • Jos lahjoittajan käännösmuistit sisältävät arkaluontoista tai salaista tietoa, Fiskmö voi poimia kaikki julkisesti saatavilla olevat tekstit lahjoittajan nettisivuilta. Fiskmö lähettää näin saadun datan lahjoittajalle, joka esikääntää ne omia käännösmuistejaan vasten jollakin käännöstyökalulla (esim. SDL Trados Studio). Vaihtoehtoisesti Fiskmö voi esikääntää datan myös itse. Esikäännöksistä syntyy kaksikielisiä tiedostoja, joissa on vain sellaista sisältöä käännösmuisteista, joka on ollut jo valmiiksi julkisesti saatavilla. Nämä kaksikieliset tiedostot muunnetaan .tmx-muotoon, ja ne voidaan joko saattaa julkisiksi tai asettaa vain Fiskmö-hankkeen sisäiseen käyttöön.

  • Vaihtoehto C: Datan kohdistus

    • Jos lahjoittajalla ei ole ollenkaan käännösmuisteja vaan pelkästään esim. kaksikielinen nettisivu, Fiskmö voi poimia tekstit ja kohdistaa toisiaan vastaavat virkkeet toisiinsa, jolloin syntyy kaksikielinen datasetti. Tämä vaihtoehto on hyvä myös silloin, jos lahjoittajalla on samoista dokumenteistä sekä suomen- että ruotsinkieliset versiot mutta ei käännösmuisteja.

Miksi lahjoittaa?

  • Lahjoittamalla edistät Fiskmö-hankkeen päätavoitteita: suuren suomi–ruotsi-rinnakkaiskorpuksen rakentamista ja julkisen konekäännöspalvelun perustamista kieliparille suomi–ruotsi.
  • Voimme kouluttaa konekääntimen teidän datallanne ja antaa teille pääsyn omille teksteillenne räätälöityyn konekääntimeen.
  • Jos lahjoitatte eri kieliversiot samasta tekstistä mutta teillä ei ole käännösmuistia, teemme kohdistetuista teksteistä käännösmuistin ja annamme sen teidän käyttöönne.
  • Voimme luoda kaksikielisiä sanalistoja/termikantoja datastanne sanafrekvenssien perusteella.
  • Voimme auttaa teitä ylläpitämään ja siivoamaan olemassaolevaa dataa:
    • väärin merkitty kieli (kielentunnistus)
    • merkkienkoodausongelmat (esim. kysymysmerkkejä å:n, ä:n ja ö:n paikalla)
    • xml/html-koodia datan seassa