Donera data och varför?

Inom fiskmö-projektet är vi intresserade i alla svenska-finska och finska-svenska översättningar vi kan få. Vi söker folk som vill hjälpa oss och det vi behöver mest är data för att träna upp våra översättningssystem. Det finns huvudsakligen tre möjligheter för att donera data till vårt projekt: Översättningsminnen, webbdata som vi filtrera och dokument med översättningar som vi kan länka ihop.

Tre möjligheter att donera:

  • Option A: Översättningsminnen

    • Du kan helt enkelt lämna över dina översättningsminnen till oss t.ex. i TMX eller andra vanliga format. Det enklaste för alla är med säkerhet om dessa datafiler inte innehålla känsliga eller sekretessbelagda data. Beroende på vad vi kommer överens om så kan vi hantera dina data på ett sätt som fungerar för dig. Vi vill gärna offentliggöra så mycket material som möjligt men vi kan också säkerställa att inget kommer ut och att vi använda dina data enbart internt för att träna våra översättningsmodeller eller inom vår forskning om du tillåta detta.  Följande diagram illustrera själva principen:

  • Option B: Crawling och filtrering

    • Oftast finns det känsliga eller icke-offentlga data i översättningsminnen som gör det svårt att dela de i sin ursprungliga form. I sådana fall kan vi extrahera offentliga texter från din offentliga webbplats. Därefter skicka vi allt material som vi kan få från den offentliga webbsidan så att vi kan filtrera dina översättningsminnen så att vi får enbart offentliga data från hela databasen. Detta kan du göra själv genom att automatöversätta de offentliga texter t.ex. med hjälpverktyg så som SDL Trades Studio. Alternativt kan vi assistera dig och hjälpa till med filtreringen. Prata med oss och vi kan berätta mer. Vi kan igen kommer överens om vi kan använda dessa filtrerade data som offentliga data eller enbart för internt bruk. Hela arbetsflödet illustreras nedan i ett blockdiagram:

  • Option C: Dokumentlänkning

    • Om du inte har några översättningsminnen själv men dokument med översättningar på något annat sätt (t.ex. tvåspråkiga webbsidor) så kan vi extrahera era texter direkt från era dokument och genom automatisk länkning kan vi skapa nya tvåspråkiga träningsdata. Vi kan hantera de flesta dokumentformat och vi vet hur vi får bra resultat även från ett blandat material av varierande kvaltet. Kontakta oss för att diskutera alla möjligheter i detalj. Så här går det till:

Varför borde du donera dina data?

  • Dina bidrag till projektet hjälper oss enormt så att vi kan nå vårt mål med utvecklingen av ett stort tvåspråkigt material på finska och svenska som ger stöd till forskning och gör det möjligt att skapa en öppen och välfungerande översättningstjänst för båda nationalspråk i Finland.
  • Dessutom erbjuder vi en möjlighet att träna speciella översättningsmodeller för dina behov genom att träna och optimera på de texter som är relevanta för dig.
  • Om du ger oss dina dokument med översättningarna så länka vi de ihop och skapa ett översättningsminne för ditt eget bruk som du får av oss.
  • Vi kan skapa tvåspråkiga lexikon och termdatabaser ur ditt material som vi kan leverera till dig.
  • Vi kan hjälpa till med dina översättningsminnen och rensa ditt material så att du får bort brus och felaktiga ingånger:
    • språkidentifiering kan hjälpa till att hitta text i fel språk
    • teckenkoderingsproblem kan upptäckas och repareras
    • vi kan städa bort xml/html code eller annat brus