Tutkijoiden oikeinkirjoitusohjelma integroitu Microsoft Wordiin

Helsingin yliopiston kieliteknologien kirjoittaman HFST-ohjelman avointa lähdekoodia on integroitu Microsoftin Word-tekstinkäsittelytyökaluun. HFST tulee sanoista Helsinki Finite-State Technology, joka tarkoittaa suomeksi äärellistilaista teknologiaa. Käytännössä ohjelma tekee tekstistä mm. morfologisia eli sanojen muodostukseen liittyviä analyysejä, joiden perusteella se voi arvioida tekstin oikeinkirjoitusta sanakirjan avulla.

– Valtakielien lisäksi HFST:tä hyödyntäviä sanakirjoja on nyt tarjolla grönlannista, fääristä ja kolmesta eri saamen kielestä. Lisäksi on kehitteillä sanakirjoja suomen sukukielille Koneen Säätiön tukemien hankkeiden kautta, kertoo FIN-CLARINin tutkimusjohtaja Krister Lindén.

Kuvassa ohjelma tarkistaa grönlanninkielistä tekstiä.

Kuvassa ohjelma tarkistaa grönlanninkielistä tekstiä.

Hanke lähti tuottamaan kielityökalua vähemmistökielille, joita Microsoft ei itse tue kyseisten markkinoiden pienuuden takia.

– Tavoitteemme on tärkeä, koska yhä isompi määrä tiedosta syntyy suoraan digimaailmaan. Ilman kunnollista kielityökalutukea vähemmistökielet jäävät vähemmälle käytölle, Lindén huomauttaa.

Hankkeessa on tehty pohjoismaista yhteistyötä. Itse HFST-ohjelma on kehitetty Helsingin yliopistolla. Norjalaiset lingvistit Tromssassa ovat testanneet koodia ja tuoneet siihen sanakirjoja ja tanskalaiset ohjelmoijat Odensessa ovat hoitaneet koodin liittämisen MS Wordiin.

HFST-ohjelmat ovat tarjolla myös OpenOfficeen ja muihin verkkoratkaisuihin.

Poikkitieteellisyys ruokkii mielikuvitusta

This story is also available in English

Digital Humanities Hackathon -intensiivikurssi 11.–15.5.2015 kokosi yhteen eri alojen osaajia Helsingin yliopistosta ja Aalto-yliopistosta. Kurssi antoi esimakua uudesta, syksyllä alkavasta digitaalisen humanismin sivuainekokonaisuudesta.

DSC_4852

Digitaalisessa humanismissa valtavat aineistot (Big Data) valjastetaan humanistis-yhteiskunnallisen tutkimuksen käyttöön tietojenkäsittelytieteen menetelmien avulla. Hackathonit taas ovat tiiviitä tapahtumia, joissa tehdään monialaista yhteistyötä ohjelmistoihin liittyvissä projekteissa. Tällä viikon kurssilla osallistujat pääsivät kokeilemaan tutkimuksen tekoa harjoitusprojekteissa.

– Hackathonissa hakattiin eteenpäin hirveällä vauhdilla. Viikossa ei opi koodaamaan, mutta sen sijaan oppii kyllä ymmärtämään, millaiset asiat ovat ylipäätään mahdollisia, kuvailee kurssille osallistunut jatko-opiskelija ja graafisen suunnittelun lehtori Arja Karhumaa Aalto-yliopistosta.

Toisiaan täydentäviä kykyjä

Kurssin osallistujajoukko oli poikkeuksellisen heterogeeninen. Tavallisten tutkinto-opiskelijoiden lisäksi mukana oli vaihto-opiskelijoita, tohtorikoulutettavia, tutkijatohtoreita ja lehtoreitakin, jotka ovat kurssilla oppimassa uutta. Humanistien ja tietojenkäsittelytieteilijöiden lisäksi löytyi taidealan ja valtiotieteellisenkin edustajia.

Osallistujat toivat kurssille eri taustoista kumpuavaa osaamistaan.

– Humanistit osaavat esimerkiksi hahmottaa, mitkä kysymykset ovat oleellisia. Tietojenkäsittelijänä minä taas keksin ratkaisuja, joilla näihin kysymyksiin saadaan vastauksia, sanoo tietotekniikan jatko-opiskelija Eric Malmi Aalto-yliopistosta.

– Tein datasta aikasarjoja ja huomasin, että eräässä kohdassa oli selkeä piikki tuloksissa. Historian opiskelija sitten osasi tulkita, mihin historian tapahtumaan ilmiö todennäköisesti liittyy. Sellaiset hetket olivat parhaita oivalluksia.

Yhteistä kaikille osallistujille oli se, että he pääsivät astumaan tutun tonttinsa ulkopuolelle. Tieteiden rajat ylittävässä yhteistyössä pitää oppia ymmärtämään vieraiden alojen kieltä ja ajattelua.

– Erilaiset käsitteet olivat haasteellisia. Niitä piti avata ja selittää puolin ja toisin, kun yhteinen termistö puuttui, Malmi kuvailee.

– Kurssilla on oppinut terminologiaa muilta aloilta. Se on antanut itseluottamusta lähteä keskustelemaan toisen alan ihmisten kanssa, Karhumaa kommentoi.

Alojen välistä tulkkausta

Sekalaisessa ryhmässä työskentely oli tohtorikoulutettava Dragana Cvetanovicin (Aleksanteri-instituutti) mielestä inspiroivaa ja suuri etu.

– Monitieteisiin hankkeisiin pystyy lähtemään mukaan rohkeammin, kun tajuaa että riittää, kun tuo mukaan oman panoksensa ja alkaa pikku hiljaa ymmärtää ja hyödyntää myös muiden osaamista. Silloin voi ryhtyä välikädeksi tai tulkiksi alojen välillä.

– Poikkitieteellinen yhteistyö edistää erityisesti tutkimuksellista mielikuvitusta. Silmät aukeavat ja tajunta laajenee, sanoo viestinnän tohtorikoulutettava Salla-Maaria Laaksonen valtiotieteellisestä tiedekunnasta.

DSC_4838

Tietokone ja tutkijat jakavat työtaakan

Kurssin osallistujat jakautuivat neljään ryhmään, jotka perehtyivät kukin omaan tutkimushankkeeseensa. Ryhmät esittelivät tutkimustuloksiaan 15.5. seminaarissa. Tapahtuma oli varaslähtö kansainväliseen digitaalisen humanismin päivään, jota vietetään 19. toukokuuta.

Hankkeiden tutkimuskysymykset olivat humanistisia. Niihin vastaaminen edellytti kurssilaisilta digitaalisten menetelmien käyttöä. Esimerkiksi Skotlanti-mainintoja 1600–1800-lukujen kirjeistä etsinyt ryhmä ei olisi millään voinut pärjätä manuaalisella lähestymistavalla, sillä heidän aineistonsa koostui jopa 5000 kirjeestä ja yli 2 miljoonasta sanasta.

Digihumanismissa ohjelmoinnin tehtävä voi olla vaikkapa seuloa valtavasta aineistosta tutkimuskysymykselle relevantit materiaalit, joihin voidaan sitten pureutua tarkemmin käsityönä. Tämä säästää huomattavasti tutkijoiden aikaa ja vaivaa sekä huolehtii myös siitä, että kaikki olennaiset materiaalit pääsevät mukaan tutkimukseen.

Teksti: Anni Aarinen. Kuvat: Mika Federley.


Mitä ryhmissä tutkittiin?

Klikkaamalla linkkejä löydät blogimerkintöjä, joita ryhmät kirjoittivat viikostaan.

  • Ensimmäinen ryhmä selvitti teknisten ammattilehtien perusteella sitä, miten hehkulamput levisivät Suomeen ja miten ne otettiin vastaan.
  • Toinen ryhmä tutki, miten sosialismista puhuttiin suomalaisissa sanomalehdissä 1895–1910.
  • Kolmas ryhmä perehtyi siihen, mitä Englannin ja Skotlannin yhdistymisestä sanottiin sen ajan kirjeissä.
  • Neljännen ryhmän tutkimuskohteena oli Suomen ja suomalaisuuden esittäminen Finnairin Blue Wings -lehdissä.

Kiinnostaako digihumanismi, Venäjä tai alkuperäiskansat? Uudet, temaattiset sivuaineopinnot alkavat syksyllä!

Humanistinen tiedekunta pilotoi syksystä 2015 alkaen tietyn teeman ympärille kiertyviä, maisteriopiskelijoille suunnattuja sivuaineopintokokonaisuuksia (25 op, nk. modulaarisia maisteriopintoja). Ensi vaiheessa kokonaisuuksia on tarjolla kolmesta eri teemasta: digitaalinen humanismi, monitieteinen Venäjä-tutkimus sekä alkuperäiskansojen tutkimus.

Ilmoittautuminen alkaa kesän lopussa. Uudenlaisia modulaarisia opintoja esitellään pian avautuvalla ja kesän aikana rakentuvalla sivustolla: https://blogs.helsinki.fi/modulaariset


Lue lisää

Study visit to Kreab

On March 18th, a group of English Translation students from the University of Helsinki visited The Kreab Group offices in Helsinki. Kreab is a global advisory firm with consultants of 40 nationalities in 25 countries. They are experts in financial, corporate, and public affairs communications worldwide. The group briefly met Matti Saarinen, Senior Partner and Chairman of the Board. Then they were hosted by Jan Erola, Associate Director who made a presentation about Kreab operations with concrete examples. He talked about what they do and how they do it.

KreabstudentpictureJan Erola presented various aspects of Kreab’s business activities. He talked about how the company assists in communications during large corporate mergers. He showed a list of many of the largest corporate mergers in Finland in recent years where they had assisted and explained what they do and how they do it.

He also talked about some of the public advocacy campaigns that they had done. One example would be attempting to change Finnish views toward Estonian health care. Modern Estonian health care is similar to Finnish standards and the doctors and staff there can speak Finnish because many have received training in Finland. The problem is that many Finns think that it is still like it was in the Soviet Union. New European Union regulations allow citizens to get certain treatments in other countries. So, Estonians would like to attract Finns. They explained how they made a campaign to change the image of Estonian hospitals in Finland.

There was a lot of discussion about traineeships. Kreab translates annual reports and translation students would be ideal to assist in this and with other projects. The study visit was interesting as well as enlightening and we thank Kreab for inviting us.

Text: Mike Garant

Humanistit ja tietojenkäsittelijät lyövät hynttyyt yhteen

Digitaalinen humanismi pääsee pian vauhtiin, sillä sen edistämiseen on valittu kaksi puuhamiestä: Aatehistorioitsija Mikko Tolonen toimii professori Timo Honkelan sijaisena. Hänen aisaparikseen on palkattu tietojenkäsittelytieteilijä Eetu Mäkelä Aalto-yliopistosta.

Mäkelä ja Tolonen vierailivat 23.2. nykykielten laitoksella esittäytymässä ja tutustumassa digihumanismista kiinnostuneisiin tutkijoihin. Virallisesti kumpikin aloitti laitoksen leivissä 1. maaliskuuta.

Tutkimusongelma edellä

Tolonen painottaa sitä, että digihumanismissa ei tavoitella uutta tieteenalaa vaan monitieteistä yhteistyötä. Tärkeintä on tutkimuksellinen lisäarvo: digitaalisilla menetelmillä haetaan uusia näkökulmia ja vastauksia tutkimuskysymyksiin, jotka tulevat humanistisen tutkimuksen keskiöstä. Teema pitää sisällään myös digitaalisuuden tutkimuksen.

Laajojen datakokonaisuuksien avulla voi etsiä merkityksiä kysymyksille kuten ”mitä historia on”. Tolonen esitteli kaksi lähestymistapaa: tiedon kokoamisen suurista korpuksista tekstinlouhinnan avulla ja metadatan käyttämisen kvantitatiivisena työkaluna. Erityyppiset aineistot ovat yhdisteltävissä: voidaan sekä tutkia rakenteista dataa että liikkua siitä tekstilouhintaan. Tämä avaa uusia mahdollisuuksia.

– Käännetään esimerkiksi kirjastoluettelo päälaelleen: käytetään vanhaa aineistoa uuteen tarkoitukseen viemällä se avoimeen tieteelliseen laskentakirjastoon. Luettelosta voi kaivaa vaikkapa julkaisupaikkojen avulla tietoa siitä, missä jotain tieteenalaa kehitettiin aktiivisesti tiettynä aikana, Tolonen havainnollistaa.

Avoimuutta datan hyödyntämiseen

Kukin tietoaineisto ja tutkimus vaatii erityiskäsittelyä ja asiantuntijan panoksen. Aineiston puhdistaminen esimerkiksi kirjoitusvirheistä ja epäyhtenäisistä kirjoitusasuista on työlästä.

– Aineistoja kannattaa putsata automatisoidusti ohjelmakoodin avulla erilaisia sääntöjä kehittäen, Tolonen selittää.

Samalla osa työn tuloksista voidaan kohdistaa myös muihin vastaaviin aineistoihin – näin syntyy huomattavaa skaalattavuutta. Aineisto tarjotaan myös muiden tutkijoiden käytettäväksi: periaatteessa kuka tahansa voi osallistua työhön jo tutkimusprosessin aikana. Mitään ei korjata käsin ilman, että siitä jäisi palautettava jälki.

– Koko työkulku raakadatasta tulkintojen kautta johtopäätöksiin on tarkasteltavissa ja toistettavissa, Mäkelä korostaa.

Visualisointi auttaa näkemään uusia asioita

Mäkelä kehittää järjestelmiä datan käsittelyyn. Niiden hyödyllisyyden arviointi on haastavaa, ja siksi hän haluaakin palautetta työkalujen käyttäjiltä.

– Humanisteilla on vaikeita tutkimusongelmia ja paljon rikasta aineistoa, mutta ei tarpeeksi työkaluja sen tonkimiseen. Haluan mahdollistaa syväluotaavan sukelluksen raakadataan, Mäkelä kuvailee.

Mäkelä on laatinut esimerkiksi visualisointityökaluja. Yhteisiä nimittäjiä niille ovat karttojen ja aikajanojen hyödyntäminen sekä linkittäminen takaisin alkuperäiseen aineistoon.

Humanistiset aineistot ja tutkimus vaativat usein syvällistä tulkintaa. Tarvitaan työkaluja, jotka auttavat löytämään aineistosta kiinnostavia säännönmukaisuuksia ja jäsentämään raakadataa.

– Tarkoitus ei ole laatia dataa raksuttavia algoritmeja, jotka sylkäisisivät lopuksi ulos valmiin tuloksen. Haluan tarjota työkaluja nimenomaan ihmiselle: auttaa tutkijaa katsomaan aineistoaan eri tavalla, Mäkelä selittää.

Yhteistyökulttuuri juurrutettava tutkimukseen

Tolonen näkee tarpeen sosiaaliselle muutokselle. Humanistis-yhteiskunnallisen tutkimuksen merkittävä pullonkaula on moderniin data-analyysiin liittyvien menetelmien ja osaamisen puute sekä ratkaisujen hajanaisuus. Avoimet sähköiset aineistot ovat kaikkien saatavilla, mutta liian laajoja yksittäisen tutkijan hallittavaksi.

– Kasvavien aineistomäärien käyttöönottoon tarvitaan työkalujen lisäksi myös uudenlaista tutkimusyhteistyötä, samaan tapaan kuin esimerkiksi biotieteissä on ryhdytty toimimaan ihmisen perimän tutkimukseen liittyen. Lisäksi keskeistä on, että päätökset menetelmien käytöstä ja kehittämisestä syntyvät tutkijalähtöisesti, Tolonen sanoo.

Tervetuloa ensimmäisiin Suomen kielitieteen olympialaisiin 28.–29.3.2015

Kielitieteen olympialaiset on lukiolaisille tarkoitettu kilpailu, joka tutustuttaa maailman kielelliseen moninaisuuteen. Kilpailutehtävien ratkaiseminen ei edellytä ennakkotietoja kielitieteestä tai joidenkin tiettyjen kielten osaamista, vaan yleinen kiinnostus kieliin ja looginen päättelykyky riittävät.

Kilpailutehtävät suoritetaan kisaviikonlopun (la-su) aikana verkossa.

Kielitieteen olympialaisiin osallistuminen on erinomainen mahdollisuus tutustua maailman kieliin ja kielitieteeseen. Suomen kielitieteellinen yhdistys palkitsee kilpailun voittajat ja myöntää osallistumistodistuksen kaikille osallistuneille.

Kansallisia kielitieteen olympialaisia on järjestetty jo useita vuosia esimerkiksi Virossa, Ruotsissa, Yhdysvalloissa, Isossa-Britanniassa ja Venäjällä. Vuodesta 2003 lähtien on järjestetty myös kansainvälisiä kielitieteen olympialaisia, joissa kansallisten kilpailujen voittajat ratkovat kielitieteellisiä ongelmia joukkueina. Suomessa olympialaiset järjestetään vuonna 2015 ensimmäistä kertaa.

Kilpailun järjestävät yleisen kielitieteen oppiaineryhmä, Suomen kielitieteellinen yhdistys (SKY) sekä Äidinkielen opettajain liitto (ÄOL).

Lisätietoa: http://www.linguistics.fi/kiol/