Donera data och varför?

Inom fiskmö-projektet är vi intresserade av alla svenska-finska och finska-svenska översättningar vi kan få. Vi söker folk som vill hjälpa oss och det vi behöver mest är data för att träna upp våra översättningssystem. Det finns huvudsakligen två möjligheter för att donera data till vårt projekt: Översättningsminnen och webbdata som vi filtrerar.

Två möjligheter att donera:

  • Option A: Översättningsminnen

    • Du kan helt enkelt lämna över dina översättningsminnen till oss t.ex. i TMX eller andra vanliga format. Det enklaste för alla är med säkerhet om dessa datafiler inte innehåller känsliga eller sekretessbelagda data. Beroende på vad vi kommer överens om så kan vi hantera dina data på ett sätt som fungerar för dig. Vi vill gärna offentliggöra så mycket material som möjligt men vi kan också säkerställa att inget kommer ut och att vi använder dina data enbart internt för att träna våra översättningsmodeller eller inom vår forskning om du tillåter detta.  Följande diagram illustrerar själva principen:

  • Option B: Crawling och filtrering

    • Oftast finns det känsliga eller icke-offentliga data i översättningsminnen som gör det svårt att dela dem i sin ursprungliga form. I sådana fall kan vi extrahera offentliga texter från din offentliga webbplats. Därefter skickar vi allt material som vi kan få från den offentliga webbsidan så att vi kan filtrera dina översättningsminnen så att vi får enbart offentliga data från hela databasen. Detta kan du göra själv genom att automatöversätta de offentliga texterna t.ex. med hjälpverktyg så som SDL Trades Studio. Alternativt kan vi assistera dig och hjälpa till med filtreringen. Prata med oss så kan vi berätta mer. Vi kan kommer överens om vi kan använda dessa filtrerade data som offentliga data eller enbart för internt bruk. Hela arbetsflödet illustreras nedan i ett blockdiagram:

 

Varför tjänar du på att donera data?

  • Dina bidrag till projektet hjälper oss enormt så att vi kan nå vårt mål med utvecklingen av ett stort tvåspråkigt material på finska och svenska som ger stöd till forskning och gör det möjligt att skapa en öppen och välfungerande översättningstjänst för båda nationalspråken i Finland.
  • Dessutom erbjuder vi en möjlighet att träna speciella översättningsmodeller för dina behov genom att träna och optimera på de texter som är relevanta för dig.
  • Om du ger oss dina dokument med översättningarna så länkar vi ihop dem och skapar ett översättningsminne för ditt eget bruk som du får av oss.
  • Vi kan skapa tvåspråkiga lexikon och termdatabaser ur ditt material som vi kan leverera till dig.
  • Vi kan hjälpa till med dina översättningsminnen och rensa ditt material så att du får bort brus och felaktiga ingångar:
    • språkidentifiering kan hjälpa till att hitta text i fel språk
    • teckenkoderingsproblem kan upptäckas och repareras
    • vi kan städa bort xml/html-kod eller annat brus