DHH17 hackathon

Erilaiset digitaaliset aineistot olivat jälleen DHH17 hackathonissa hyvin hyödynnettyinä. Tänä vuonna työryhmiä oli neljä, ja aineistojen käsittelyyn oltiin jo varattu ennakolta hyvin aikaa ja valmistautumista rankkaan viikkoon. Ylätason teemat olivat

  • Categories, norms and genres – critical readings in numbers
  • The media and the political elite
  • Hated objects in eighteenth-century Britain
  • Mapping changes in cultural heritage conceptions

joista ryhmät saivat sitten pohtia itselleen sopivimman kiinnostuksen kohteen. Aineistona käytettiin myös Kansalliskirjaston digitaalisia aineistoja, sanomalehtiä ja Finnasta löytyviä metatietoja. Viikon työskentelyn jälkeen ryhmät koostivat tuloksensa postereiksi ja tässä tekstissä käydäänkin läpi tuotoksia loppuseminaarin esitysten mukaan.

Ryhmien tulosten kooste posterit

 

Esittämisjärjestyksen mukaan ryhmä 1 käsitteli ‘critical reading in numbers’ teemaa

Ryhmä käytti SVM(Support Vector Machine) -luokitinta luokittelemaan runoja, ja sen opetukseen ryhmässä poimitiin käsin opetusaineistoksi 120 runoa (460 tekstialuetta). Luokittimella poimituille runoille tehtiin aihemallinnusta (topic modeling) ja ne analysoitiin myös morfologisella POS (Part of Speech)  täggäys-työkalulla (LAS), jonka avulla niistä etsittiin variaatiota ajassa, paikassa tai julkaisussa. He vertasivat mm. kuinka verbejä adjektiiveja käytettiin suhteessa toisiinsa. Ryhmää jäi myös pohdituttamaan kuinka menetelmä toimisi laajemman aineiston kanssa, joka vaatisi laajemman opetusaineiston tekemistä. Lisäksi jatkotutkimuskohteena ryhmä pohti voisiko sama malli soveltua ylipäätään eri kirjallisuuden lajien tunnistamiseen.

 

Tiimi 2, eli ryhmä, joka toimi Ylen ja Helsingin Sanomien aineistojen parissa nosti tutkimuskysymyksekseen sen, että keitä mediassa kuullaan? Esimerkiksi yksittäisten poliitikkojen voi huomata visualisoinneista olevan näkyvissä hyvinkin samalla lailla eri medioissa. Kiintoisaa oli myös tehdyt vertailut eri medioiden välillä mielipiteiden eroista eri keskustelun aiheista, johon työkaluna käytettiin NRC Emotion-työkalua.

 

Tiimi 3 oli valinnut aiheekseen  “Emotion and location in the British 18th Century Luxury Discussions”, tässä aineistona käytettiin ECCO-aineistoa, eli Galen Eighteenth Century Collections Online-kokoelmaa vuosilta 1701-1800. Tavoitteena oli arvioida esimerkiksi kuinka lääketieteellinen kieli on aineistossa ollut mukana. Ryhmä keräsi noin 100 sanaa jotka liittyvät terveyteen, ja laajensivat tätä sanastoa 1500 termiin käyttämällä ECCOa. tästä he (menetelmällä, jota ei tarkemmin selitetty) saivat luotua mittarin tekstiaineiston lääketieteellisyydelle, jota käytettiin tutkimaan aineiston lääketieteellistä sisältöä ja termejä ajan suhteen.

Tiimi 4 tutki kulttuuriperintöpaikkoja ja digitaalisen ajan osallistumisen kulttuureja (Heritage sites and participatory cultures in the digital age). Hyödyntäen kaupallisia esimerkkejä, kuten Pokémon Go:ta esimerkkinä, ryhmä pohti voisiko kulttuuriperintökohteet toimia geokätköilyharrastajien motivaattorina. Tämähän olisi loogista, koska esimerkiksi Ingress ja Pokémon Go käyttää kulttuuriperintödataa peleissä “kohdepisteinään”. Ryhmä käytti R-ympäristön stm-kirjastoa rakenteisten aihemallinnusten luomiseksi (koko Suomen ja pienempien alueiden sisällä) ja yhtenä koealueena oli mm. Suomenlinna, josta olevaa aineistoa tutkittiin Finnasta löytyvien kuvien metatietojen avulla ja näin geokätköily ja RKY:n tarjoama dataa tuli hyödynnettynä.

Kaikkien ryhmien koodit löytyvät Githubista : https://github.com/dhh17 .

 

DHH17 oli jälleen onnistunut hackathon, jossa onnistuneesti jälleen tömäytettiin eri yliopistojen ja eri opintoalojen opiskelijoita yhteen, tekemään ja pohtimaan tutkimuskysymyksiä, että niiden toteutuksia yhdessä. Sekä ryhmän sisällä ja ryhmien välillä tapahtuu kiintoisaa ajatusten vaihtoa ja lisäksi on mahdollista löytää teknologioita, joita voisi mahdollisesti hyödyntää myös jälkeenpäin.

 

Kirjoittajat : Tuula Pääkkönen & Mika Koistinen

Kuvat: (C) Mika Koistinen

 

P.S. Digi.kansalliskirjasto.fi :n aineistopaketteja löytyy  http://digi.kansalliskirjasto.fi/opendata – sivulta, näet sieltä sekä nykykäyttäjiä, mutta voit ladata myös aineistopaketteja myös itse ja pohtia miten suuria tekstimassoja parhaiten voisi hyödyntää.

One thought on “DHH17 hackathon

  1. Pingback: Aineistoja esiin tutkimuksen avulla | Digitalia

Comments are closed.