Kirjoittajan arkistot:lcarlson

Digiloikka: TMX käännösmuistipoimuri

Digiloikka: TMX-poimuri

Käännetyistä EU-dokumenteista on EU DGT kerännyt dokumenttikohtaisia käännösmuisteja. Kussakin on yhden dokumentin käännökset  kaikilla saatavilla kielillä (kaikkia dokumentteja ei tosin ole käännetty kaikille kielille).

EU-dokumentit on indeksoitu EuroVocin asiasanoilla. Asiasanoilla (tai niitä vastaavilla eurovoc-numeroilla) voi siten hakea tiettyyn aihealueeseen liittyviä dokumentteja ja niiden käännösmuisteja.

Asiasanoitus ei ole kovin erotteleva kääntämisen kannalta. Dokumentin indeksointi eurovoc-numerolla ei välttämättä takaa, että siitä käännösmuistiin valitut segmentit koskevat ko. aihetta. Mutta ehkä se jotakin teettää.

Digiloikan TMX poimuri poimii EU DGT:n TMX-käännösmuisteista yksiköitä kieliparin (-suunnan) ja dokumenttien eurovoc-koodien perusteella.
Poimituista yksiköistä muodostetaan uusi TMX-käännösmuisti, joka tallennetaan Termitehtaan palvelimelle (jos poimittavaa löytyi).

Poimitut käännösmuistit löytyvät tulostaulusta (scoreboard).

Poimitut käännösmuistit ovat vapaasti saatavilla. Poimintaan tarvitaan Termitehtaan käyttäjätunnus.

Termitehdas näkyy vain yliopiston verkossa. Kotoa sinne pääsee vpn:llä.

Linkki tulostauluun ja linkki poimuriin löytyy alempaa.

EU linkkejä

DGT:n käännösmuistit

EUR-lex EuroVoc -selain

EuroVoc-asiasanastot

Digiloikka

HUOM Termitehtaan palvelin näkyy vain yliopiston verkossa.

Edellisistä johdettuja taulukoita ja tilastoja

Tulostaulu

Poimuri

Maisterikoulun memsource – nimeämiskäytännöistä

Kun luotte Memsourceen linguist-tunnuksia, luokaa kullekin opiskelijalle tunnus, joka on samannäköinen kuin opiskelijan sposti-osoite yliopistolla: esim minun tunnukseni olisi ”juha.eskelinen”, Tuijan ”tuija.t.kinnunen”. Tällä vältämme sen, että samalla opiskelijalla on turhaan käytössään useita tunnuksia, meillä on kuitenkin jaettavana vain 500 linguist-tunnusta ja 50 PM-tunnusta.

Kun luotte projekteja, käännösmuisteja tai sanastoja, aloittakaa nimi AINA opettamanne kurssin koodilla. Tämä helpottaa niiden tunnistamista ja poistamista sitten kun niitä ei enää tarvita.

Poistakaa tarpeettomat projektinne, käännösmuistinne ja termipankkinne kun kurssinne päättyy.

(ohjeen lähde: Juha Eskelinen)

Miten kääntäjien aineistopankki kehittyi kesällä 2018

Kääntämisen ja tulkkauksen digiloikassa on määrä kehittää opettajille ja opiskelijoille yhteinen digitaalinen aineistopankki, johon kerättäisiin yhteisvoimin opetusta ja tutkimusta tukevia aineistoja ja sovelluksia. Suunnittelun lähtökohdaksi otettiin, että koetetaan käyttää yliopiston tukemia alustoja, jotta digiloikan rahoituksen päätyttyä alustan tuki jatkuisi mahdollisimman varmana.

Kesän aikana suunnittelijaksi palkattu Maria Mäkinen kokeili OTE:n Marko Alamäen neuvosta yliopiston vasta käyttöön tullutta Microsoftin Teams-alustaa sekä yliopiston WordPress-blogialustaa Teams näyttäisi sopivan ryhmien muodostamiseen ja yhteydenpitoon, mutta ei hevin aineistojen talletukseen eikä  niiden hakuun. WordPress-alusta on helppolukuinen ja -käyttöinen, ja siinä on paremmat hakutoiminnot. Sekään ei sovi aineistojen talletuspaikaksi.

Maria on kesällä vienyt WordPressiin (https://blogs.helsinki.fi/tra-data) kaikki tähän asti löytämänsä materiaalilinkt. Mallina meidän blogialustaan on käytetty mm. taiteiden tutkimuksen digiloikan Taituria, joka on toteutettu WordPressillä.  ttps://blogs.helsinki.fi/taiteiden-tutkimuksen-oppimateriaalit/

Microsoft Teams -palveluun tehtiin digiloikkaa varten oma sivu (osoite). Mahdollisesti sekin otetaan laajempaan käyttöön. Office 365 Teams-ryhmiin voit nyt kutsua Helsingin yliopiston ulkopuolisia käyttäjiä.

Maria on kirjoittanut Teamsiin ja WordPressiin käyttöoppaat. Maria työsopimus päättyy elokuun lopussa, mutta hän on lupautunut jatkamaan projektissa tuntityöläisenä tarpeen mukaan.

—–

Kääntäjien digiloikan työryhmä piti 22.08.2018 kokouksen, jonne oli kutsuttu asiantuntijoina Marko Alamäki (OTE), Teo Kirkinen (Tietotekniikkakeskus) ja Jere Majava (Opetusteknologia, HY:n blogivastaava).

Keskustelun jälkeen päädyttiin siihen ratkaisuun, että WordPress-blogi toimii materiaaliportaalina, josta on linkit materiaaleihin, mutta itse materiaalit sijaitsevat tarpeen mukaan eri paikoissa, materiaalien omistajien omassa halinnassa ja   ylläpidossa. Esimerkiksi videot tallennetaan Unitubeen ja asiakirjatiedostot ovat opettajien valitsemassa paikassa. Mm. yliopiston Wikiä ja Moodlea voi käyttää.

Blogiin tulee ohjeistukset opettajille kaikista näistä asioista.

Päätettiin, että nimetään sivusto jollakin digiloikkaamme sopivalla nimellä. (Maria ja Lauri valitsivat sittemmin nimeksi tra-data – jotta nimi olisi lyhyt ja kieliriippumaton.)

—–

Saara Salminen on koonnut Laurin opastamanal käännösmuistia tuntityönä 1.6. alkaen (~ 40 t/vko). Kesän aikana toteutettiin opetusministeriön taito-koneella ratkaisu, jonka avulla käännösmuisteista voi tehdä aiheenmukaisia otoksia eurovoc-asiasanoilla. Sopimus päättyy 30.9.2018. Pohdittiin Saaran kokoamien käännösmuistien (90 Gt) säilyttämistä. Lauri ja Teo selvittävät, minne muistit sijoitetaan. Laurilla on ennestään virtuaalipalvelin tfs.ling.helsinki.fi, jota voisi ehkä käyttää tähän. Samalle virtuaalipalvelimelle avoitaisiin tallentaa myös uudet opiskelijoiden kokoamat käännösmuistit. Lauri koodaa palvelun, jolla voi hakea Saaran käännosmuisteja verkon kautta.