DHH19 – remote live notes

As has already been in earlier years, the DHH19 hackathon was due. This time there were:

  • 38 participants
  • 10 days
  • 4 teams and projects
  • Computer science + social science + humanities

This time DHH19 went international, and the group was versatile


There was communication part in each team, which explained at least the Twitter-using teams, and there were also interviews made from the participants.

13:20-14:30 Group presentations

DHH19-Brexit group

RQ: What is the relationship between social media and politics?

  • Types of tweets: retweet (massive amount), original, reply, quotes
  • Checked regional tweets, and who are the most dominant users.
  • 1 user can be responsible of certain combination of hashtags (whose account anyhow suspended)
  • Real-life events vs events on Twitter
  • Several hashtag groups can be identified and that was visualized and put to a timeline (as assumed that hashtag correlates to a time)

  • Research on subgroups: all users, verified users, members of parliament
  • Frequency analysis: most shared Twitter content vs. external content.
  • Blame : groups mobilise different content to futher their agenda
  • Who are people angry at?   “the anger scale”  (person id’s of angry tweets)
  • hashtags of MP’s ; hashtag avoidance by politicians? (removal of themselves from the discussion?)
  • Problems: how well the dataset matches the population, e.g. PM is missing from the data?
    • Experimented with NER, ‘May’ ends up as Date 🙂
    • tweet json contains so many fields, where rt’s and hashtags don’t get to correct field due to way how api was used
    • https://blogs.helsinki.fi/digital-humanities-hackathon/brexit
  • Couldn’t go further to data as historical data would have a cost of several thousands of euros.



DHH19-EU Parliament group

  • Update on communications
  • “We communicated”
    • the future, << political discourse & debate >>,  history, the past
  • What is EU?
  • Whole corpus
    • 249,955 speeches in English, 50M words, 2M sentences
    • metadata: speaker (name, country, political functions, gender, date, topic)
    • 2013 change in protocol, after 2013 , 99.7% of English speeches from UK and IRL
  • Created subcorpora:
    • picked keywords, to find suitable parts from data, brainstormed ideas for subset, observed data , topic modelling, word embedding… and selected keywords then
    • word ‘past’ might work if they talk about last session
    • Past: 13.230 speeches, future 5430 speeches, totaliariasmi 4517, climate change 12k
  • Key results
    • Past and future are very related
    • Construction of Future (network with ‘key hubs’)
    • Thinking conceptually what is the future
    • Topic modelling : which topics connected with the past or to the future
    • Sentiment analysis : speakers seem to be less emotional and more concrete while talking about future. (Utilized existing tools for doing analysis)

  • variance of sentiment analysis
  • analysis of sentiment analysis compared to gender, country -> by this noticed the 2013 issue
  • Qualitative analysis: close reading to extract ideas between past and the future. MP’s utilize ‘past’ elements as something to avoid or sometimes as some things to preserve & generic human values.

‘Future’ is something to plan , fear or hope for

* RQ: Case study 20thcenttot” How is the horseshoe theory present in discourse on the topic and how does it differ by region (E/W)?

  • strongly connected in discourse, with no significant differences between East and West
  • frequency analysis of specific terms, 2005 a spike visible .

* RQ: Case study: The climate crisis. How is climate change talked about in EP? Are there differences how diff countries talk about it?

  • Proportion of speeches in climate change, spike in 2007 to 2010 (combination of current events, 2008 – 2011 first impl of Kyoto protocol). Might be impacted by nbr of speeches
  • Sentiment analysis – by country , a problem found. E.g. Lux vs. IRL , sth in the data (number of speeches vs. climate speeches)
  • False positives and negatives in understanding the sentences.
  • Compared Finland & Spain: word clouds differ , in Finlandd emission, carbon at top, in Spain: water , mediterranean


  • defining the past and the future: how to detect it in the corpus?
  • Missing English translated speeches and missing metadata
  • English corpus included other languages

More work to do: look at differences between political parties ; issues w dataset should be solved.

A break: coffee (&tea) consumption in DHH2019

15-16 Groups

DHH19-Genre and Style group

“Name-dropping in 18th century public discourse”

RQ: Which personal names are frequently mentioned in 18th century British publications?   On the basis of the freq and co-occ. of individual names, what kind of patterns can we detect that are characteristic of genres and time periods?


  • 18th century collections online (ECCO)
  • high representativeness: ca 50% of all 18th century British printed texts (180k titles, 32M pages)
  • OCR issues, unreliable metadata


  • Keyword analysis
  • Three subset over time: hist, relig, social
  • Methods


  • “Even when data was good it was not standardized”
  • Name dropping was used in text (Queen elisabeth, Cicero,…)
  • Identified the most common people mentioned
  • Looked at this over time (20-year periods)
  • The people mentioned in books have some similarity context (network of books, clusters of religious texts, historical texts, social affairs where subclusters)
  • Origins of mentioned individuals (ancient, classical, early medieval, late medieval, renaissance, contemporary, NA)

Future research:

  • Automatic genre classification based on named entity networks
  • Improve NER and subsets by using domain-specific resources
  • examine less popular entities and their role
  • focus on 1st editions, inspecting specific sections of books
  • creating interactive visualizations

Communication: blogs medium & blogs.helsinki.fi, Twitter (1 post from everyone), Instagram.

DHH19 – Newspapers

Why newsppapers? “Most important public record from the past”

Research themes:

  • presence of ads
  • language of persuation


  • working in smaller groups, 2 meetings every day. Interlinking blogs


  • Presence of ads in morning post 1800-1900
  • everything compared to the ads quantity
  • Åbo Underrättelser 1824-1890
    • Only a handful of finnish Newspapers have ad segmentation , none in 1892-…
  • The development of Ads in British Newspapers 1800-1900 : country, city and paper level
  • The pres. of ads in Morning post 1800-1900

The language of persuasion in advertisements

  • What linguistic strategies were used for persuading people into buying or using?
  • close reading of 1 newspaper issue per decade
  • Testimony : authority & ordinary people
  • Advertisements used adjectives, describing the high quality of the product – compared ratio of ads vs. articles -> no differences
  • Interesting was the ratio of words (ads vs. articles)   (ads used short sentences, easy to remember)

3. “The pills that cure everything – drug advertisements” ( a subcorpus)

  • compared gender
  • found out which illnesses the ads were targeted against
  • descriptive language compared between different ads, e.g. ‘nervous’ came less important in women ads, but not on males – treatment of the word maybe changed.
  • illustrations with the ads were interesting between diff genres (very different contexts, emotions visible for e.g. nervousness)

3. job advertisements, class and societal change?

  • most sought occupations in newspaper ads /HISCO categories
  • requirements connected to different occupations
  • social and cultural expectations regarding these jobs
  • differences between country in terminology, and even industrial changes
  • top 15 occupations in Åbo Underrättelser : e.g. teachers !


  • OCR…
  • article separation (british newspapers)

Plan for future research

  • 10 days, couldn’t do everything they wanted
  • typology, trajectories, rhetorical tropes, medical/drugs & hysteria, marketing strategies

Dashboards available online.

Summa summarum

Sounds like that the hackathon was very interesting and the teams got far. Tools were used in interesting ways. Need to be considered how the ideas here could be used in research and development work done in the Digitalia project, too. This gave good food for thought 🙂


Hackathonit ja aineistot

Hack4Fi 2018 (5.-7.10.)

Perinteinen kulttuuriperintöaineistojen hackathon on tänä vuonna 5.-7.10. https://hack4.fi/ . Aineistoja on jälleen noin tusinalta organisaatiolta, ja mahdollisuuksia onkin taas monia: https://hack4.fi/2018-tracks/ , joten on kiintoisaa nähdä mitä tämän kerran uudet ja mahdollisesti palaavat osallistujat keksivät. Rekisteröityminen lienee vielä auki, joten hop hop viikonloppua varaamaan tälle.

WIDE – open science hackathon (26.-28.10.)

Hieman toisen tyyppinen hackathon on avoimen tieteen WIDE, jossa pyritään lähentämään tiedettä ja yhteiskuntaa, ja jossa erilaiset osallistujat voivat tutustua toisiinsa ja ratkaista pulmia joko CODE- tai GENERALIST-säikeessä. Koodauspuolella ainut esiehto on, että oma ratkaisu hyödyntää  listattuja rajapintoja tai aineistoja . Palkinnot tässä hackathonissa ovat huimat, joten kannattaa tuoda omia iltakoodailuja vaikka tähän tapahtumaan muiden kanssa kehitettäväksi. Jos lokakuun alun tapahtuma tuli liian pian, tähän vielä voi ehdotella 2-5 hengen ryhmää, takarajana 11.10. rekisteröitymiselle.


Hackjunction (23-25.11.2018)

Euroopan suurin hackathon, sanoo hackjunctionin etusivu. https://hackjunction.com/  järjestetään Helsingissä marraskuun alussa, kun ulkona on kylmää ja läppärin ääressä on hyvä lämmitellä. HJ:ssä on myös tapahtumia muilla paikkakunnilla, joten sivustolta voi vilkuilla missä.

Ultrahack (30.11.-2.12.+)

Ultrahackissä yhdistetään kehittäjiä teknologisteihin ja yritetään löytää kehitettäviä innovaatioita, joilla ratkaistaan maailman suurimpia haasteita. Yhteistyö on siis olennaista.


HAMR 2018 (21-22.9.)

ISMIR-konferenssin perjantai ja lauantai oli varattu HAMR 2018 hackathonille. Ohjelman järjestäjänä oli Deezer, joka on paikallinen musiikin suoratoistopalvelu, ja joka myös sponsoroi ko. tapahtumaa. Heiltä oli kolme järjestäjää, jotka hoitivat rekisteröitymisen, alustuksen ja auttoivat käytännön asioissa päivän aikana. Deezerillä oli myös kätevä tila hackathoniin – yhdistetty aula+keittiönurkkaus, jossa oli paljon tyhjää tilaa. Hackathonin alkaessa avoin tila täytettiin pöydillä ja tuoleilla, johon kukin ryhmä asettui jatkojohtojensa kanssa. Kiinnostavaa on myös se kuinka helpolla osallistujat saadaan osallistumaan, järjestäjät yksinkertaisesti kysyivät, mitä kukin haluaisi tehdä ja tässä esimietintäsessiossa löytyikin noin 7 eri ajatusta, joihin muut osallistujat saivat tarttua. Oletan, että avauspitchaajia ei oltu värvätty, vaan kyseessä oli aidot “hupi-ideat”, joita osallistujat olisivat muutenkin tehneet. Hackatonissa tosin on mahdollisuus ryhmäytyä, ja saada enemmän tekijöitä ja samanmielisiä aihetta ideoimaan.

DHH hackathoneista poiketen Deezerin mallissa, hackathonin tuotokset tehtiin pull requesteina Deezerin oman hackathonin perushakemiston alle. Kukin projekti omassa haarassaan: https://github.com/deezer/hamr2018/branches/active , joka pitääkin toteutukset kauniisti yhdessä.

Aineistojen toimittaminen olikin kiinnostavaa – HAMR:lle perustettiin slack-ryhmä, johon osallistujat kutsuttiin ja jossa sitten jaettiin avauskalvot ja muutamia linkkejä esim. Deezerin rajapintaan. Aineistoista ei kuitenkaan selitetty sen enempää vaan APIa pääsi tutkimaan ihan itse ja luonnollisesti slackissa sitten oltiin valmiina vastaamaan kysymyksiin kuten myös fyysisesti hackathonin tilassa. Palkintona hackathonissa oli mainetta ja kunniaa, ja eeppiset vasarat, kuten luonnollisesti ham..r-nimisessä tapahtumassa kuuluukin.

Hackathonit ovat kiinnostavia, seurasipa tai osallistuipa niihin missä roolissa tahansa. Järjestäjät pitävät osallistujista hyvää huolta ja pääasiahan on saada pari päivää aikaa, jonkin kiintoisan jutun tekemiseen. Apuna vielä useampi henkilö, joten pulmia voi ratkaista yhdessä toisten kanssa ja siten ehkä myös laajentaa ratkaisun vaikuttavuutta. Rohkeasti vain kokeilemaan! Viimeistään lopputulosten esittely on kiinnostavaa, kun näkee, kuinka osallistujat ovat ideastaan innostuneet.

Digitaalisen tiedon kesäkoulu 2017

Digitaalisen tiedonhallinnan tutkimus- ja kehittämiskeskus Digitalia kehittää menetelmiä tiedon tehokkaaseen käsittelyyn ja hyödyntämiseen. Digitalian perustivat kesällä 2015 Mikkeliin Kaakkois-Suomen ammattikorkeakoulu, Helsingin yliopisto ja Kansalliskirjasto.

Ilmoittaudu viimeistään 22. kesäkuuta: www.lyyti.in/kesakoulu17 . Lisätiedot  https://www.xamk.fi/kesakoulu/

Kesäkoulussa kuulet johtavien asiantuntijoiden puheenvuoroja, saat alan uusinta tutkittua tietoa ja tutustut käytännön caseihin. Kuinka EU:n uusi tietosuoja-asetus vaikuttaa rekisterinpitäjien velvollisuuksiin? Missä mennään EU:n tekijänoikeusuudistuksessa? Miten parannamme aineistojen saatavuutta ja käytettävyyttä? Entä mitä omille tiedoillemme tapahtuu? Digitaalisuudesta on todellista hyötyä vasta kun kykenemme hyödyntämään digitaalista tietoa oikein.

Kesäkoulu on maksuton ja suunnattu ensisijaisesti digitaalisen kulttuuriperinnön, tiedonhallinnan ja arkistoinnin opiskelijoille, tutkijoille ja muille asiantuntijoille. Mikäli kurssilla on tilaa, osallistujat myös muilta aloilta ovat tervetulleita. Luennoille mahtuu 70 osallistujaa.

Työskentelytapana ovat luennot ja hackathon. Saat halutessasi osallistumistodistuksen. Mahdollisista opintosuorituksista ja niiden laajuudesta osallistujat sopivat oman oppilaitoksensa kanssa. Voit osallistua kaikkiin kolmeen teemapäivään tai vain osaan niistä.

Kesäkoulun teemat ovat

Ilmoittaudu viimeistään 22. kesäkuuta: www.lyyti.in/kesakoulu17


DHH17 hackathon

Erilaiset digitaaliset aineistot olivat jälleen DHH17 hackathonissa hyvin hyödynnettyinä. Tänä vuonna työryhmiä oli neljä, ja aineistojen käsittelyyn oltiin jo varattu ennakolta hyvin aikaa ja valmistautumista rankkaan viikkoon. Ylätason teemat olivat

  • Categories, norms and genres – critical readings in numbers
  • The media and the political elite
  • Hated objects in eighteenth-century Britain
  • Mapping changes in cultural heritage conceptions

joista ryhmät saivat sitten pohtia itselleen sopivimman kiinnostuksen kohteen. Aineistona käytettiin myös Kansalliskirjaston digitaalisia aineistoja, sanomalehtiä ja Finnasta löytyviä metatietoja. Viikon työskentelyn jälkeen ryhmät koostivat tuloksensa postereiksi ja tässä tekstissä käydäänkin läpi tuotoksia loppuseminaarin esitysten mukaan.

Ryhmien tulosten kooste posterit


Esittämisjärjestyksen mukaan ryhmä 1 käsitteli ‘critical reading in numbers’ teemaa

Ryhmä käytti SVM(Support Vector Machine) -luokitinta luokittelemaan runoja, ja sen opetukseen ryhmässä poimitiin käsin opetusaineistoksi 120 runoa (460 tekstialuetta). Luokittimella poimituille runoille tehtiin aihemallinnusta (topic modeling) ja ne analysoitiin myös morfologisella POS (Part of Speech)  täggäys-työkalulla (LAS), jonka avulla niistä etsittiin variaatiota ajassa, paikassa tai julkaisussa. He vertasivat mm. kuinka verbejä adjektiiveja käytettiin suhteessa toisiinsa. Ryhmää jäi myös pohdituttamaan kuinka menetelmä toimisi laajemman aineiston kanssa, joka vaatisi laajemman opetusaineiston tekemistä. Lisäksi jatkotutkimuskohteena ryhmä pohti voisiko sama malli soveltua ylipäätään eri kirjallisuuden lajien tunnistamiseen.


Tiimi 2, eli ryhmä, joka toimi Ylen ja Helsingin Sanomien aineistojen parissa nosti tutkimuskysymyksekseen sen, että keitä mediassa kuullaan? Esimerkiksi yksittäisten poliitikkojen voi huomata visualisoinneista olevan näkyvissä hyvinkin samalla lailla eri medioissa. Kiintoisaa oli myös tehdyt vertailut eri medioiden välillä mielipiteiden eroista eri keskustelun aiheista, johon työkaluna käytettiin NRC Emotion-työkalua.


Tiimi 3 oli valinnut aiheekseen  “Emotion and location in the British 18th Century Luxury Discussions”, tässä aineistona käytettiin ECCO-aineistoa, eli Galen Eighteenth Century Collections Online-kokoelmaa vuosilta 1701-1800. Tavoitteena oli arvioida esimerkiksi kuinka lääketieteellinen kieli on aineistossa ollut mukana. Ryhmä keräsi noin 100 sanaa jotka liittyvät terveyteen, ja laajensivat tätä sanastoa 1500 termiin käyttämällä ECCOa. tästä he (menetelmällä, jota ei tarkemmin selitetty) saivat luotua mittarin tekstiaineiston lääketieteellisyydelle, jota käytettiin tutkimaan aineiston lääketieteellistä sisältöä ja termejä ajan suhteen.

Tiimi 4 tutki kulttuuriperintöpaikkoja ja digitaalisen ajan osallistumisen kulttuureja (Heritage sites and participatory cultures in the digital age). Hyödyntäen kaupallisia esimerkkejä, kuten Pokémon Go:ta esimerkkinä, ryhmä pohti voisiko kulttuuriperintökohteet toimia geokätköilyharrastajien motivaattorina. Tämähän olisi loogista, koska esimerkiksi Ingress ja Pokémon Go käyttää kulttuuriperintödataa peleissä “kohdepisteinään”. Ryhmä käytti R-ympäristön stm-kirjastoa rakenteisten aihemallinnusten luomiseksi (koko Suomen ja pienempien alueiden sisällä) ja yhtenä koealueena oli mm. Suomenlinna, josta olevaa aineistoa tutkittiin Finnasta löytyvien kuvien metatietojen avulla ja näin geokätköily ja RKY:n tarjoama dataa tuli hyödynnettynä.

Kaikkien ryhmien koodit löytyvät Githubista : https://github.com/dhh17 .


DHH17 oli jälleen onnistunut hackathon, jossa onnistuneesti jälleen tömäytettiin eri yliopistojen ja eri opintoalojen opiskelijoita yhteen, tekemään ja pohtimaan tutkimuskysymyksiä, että niiden toteutuksia yhdessä. Sekä ryhmän sisällä ja ryhmien välillä tapahtuu kiintoisaa ajatusten vaihtoa ja lisäksi on mahdollista löytää teknologioita, joita voisi mahdollisesti hyödyntää myös jälkeenpäin.


Kirjoittajat : Tuula Pääkkönen & Mika Koistinen

Kuvat: (C) Mika Koistinen


P.S. Digi.kansalliskirjasto.fi :n aineistopaketteja löytyy  http://digi.kansalliskirjasto.fi/opendata – sivulta, näet sieltä sekä nykykäyttäjiä, mutta voit ladata myös aineistopaketteja myös itse ja pohtia miten suuria tekstimassoja parhaiten voisi hyödyntää.