Miten lahjoittaa dataa ja miksi

Fiskmö-hanke on kiinnostunut kaikista suomi–ruotsi- ja ruotsi–suomi-käännöksistä. Hankimme dataa pääasiassa kahdella tavalla: käännösmuistilahjoituksilla sekä tekstejä poimimalla ja suodattamalla.

Kaksi tapaa lahjoittaa:

  • Vaihtoehto A: Käännösmuistilahjoitus

    • Lahjoittaja luovuttaa käännösmuistinsa .tmx-muodossa tai vastaavassa. Tämä tapa on yksinkertaisin ja mahdollinen silloin, kun käännösmuistit eivät sisällä arkaluontoista tai salaista tietoa. Riippuen siitä, mitä lahjoittajan kanssa sovitaan, datasta voidaan joko tehdä julkista tai vain Fiskmö-hankkeen sisäiseen tutkimus- ja koulutuskäyttöön tarkoitettua.

  • Vaihtoehto B: Tekstin poiminta ja suodatus

    • Jos lahjoittajan käännösmuistit sisältävät arkaluontoista tai salaista tietoa, Fiskmö voi poimia kaikki julkisesti saatavilla olevat tekstit lahjoittajan nettisivuilta. Fiskmö lähettää näin saadun datan lahjoittajalle, joka esikääntää ne omia käännösmuistejaan vasten jollakin käännöstyökalulla (esim. SDL Trados Studio). Vaihtoehtoisesti Fiskmö voi esikääntää datan myös itse. Esikäännöksistä syntyy kaksikielisiä tiedostoja, joissa on vain sellaista sisältöä käännösmuisteista, joka on ollut jo valmiiksi julkisesti saatavilla. Nämä kaksikieliset tiedostot muunnetaan .tmx-muotoon, ja ne voidaan joko saattaa julkisiksi tai asettaa vain Fiskmö-hankkeen sisäiseen käyttöön.

 

Miksi lahjoittaa?

  • Lahjoittamalla edistät Fiskmö-hankkeen päätavoitteita: suuren suomi–ruotsi-rinnakkaiskorpuksen rakentamista ja julkisen konekäännöspalvelun perustamista kieliparille suomi–ruotsi.
  • Voimme kouluttaa konekääntimen teidän datallanne ja antaa teille pääsyn omille teksteillenne räätälöityyn konekääntimeen.
  • Jos lahjoitatte eri kieliversiot samasta tekstistä mutta teillä ei ole käännösmuistia, teemme kohdistetuista teksteistä käännösmuistin ja annamme sen teidän käyttöönne.
  • Voimme luoda kaksikielisiä sanalistoja/termikantoja datastanne sanafrekvenssien perusteella.
  • Voimme auttaa teitä ylläpitämään ja siivoamaan olemassaolevaa dataa:
    • väärin merkitty kieli (kielentunnistus)
    • merkkienkoodausongelmat (esim. kysymysmerkkejä å:n, ä:n ja ö:n paikalla)
    • xml/html-koodia datan seassa