Digitaalisen tiedon kesäkoulu 2017

Digitaalisen tiedonhallinnan tutkimus- ja kehittämiskeskus Digitalia kehittää menetelmiä tiedon tehokkaaseen käsittelyyn ja hyödyntämiseen. Digitalian perustivat kesällä 2015 Mikkeliin Kaakkois-Suomen ammattikorkeakoulu, Helsingin yliopisto ja Kansalliskirjasto.

Ilmoittaudu viimeistään 22. kesäkuuta: www.lyyti.in/kesakoulu17 . Lisätiedot  https://www.xamk.fi/kesakoulu/

Kesäkoulussa kuulet johtavien asiantuntijoiden puheenvuoroja, saat alan uusinta tutkittua tietoa ja tutustut käytännön caseihin. Kuinka EU:n uusi tietosuoja-asetus vaikuttaa rekisterinpitäjien velvollisuuksiin? Missä mennään EU:n tekijänoikeusuudistuksessa? Miten parannamme aineistojen saatavuutta ja käytettävyyttä? Entä mitä omille tiedoillemme tapahtuu? Digitaalisuudesta on todellista hyötyä vasta kun kykenemme hyödyntämään digitaalista tietoa oikein.

Kesäkoulu on maksuton ja suunnattu ensisijaisesti digitaalisen kulttuuriperinnön, tiedonhallinnan ja arkistoinnin opiskelijoille, tutkijoille ja muille asiantuntijoille. Mikäli kurssilla on tilaa, osallistujat myös muilta aloilta ovat tervetulleita. Luennoille mahtuu 70 osallistujaa.

Työskentelytapana ovat luennot ja hackathon. Saat halutessasi osallistumistodistuksen. Mahdollisista opintosuorituksista ja niiden laajuudesta osallistujat sopivat oman oppilaitoksensa kanssa. Voit osallistua kaikkiin kolmeen teemapäivään tai vain osaan niistä.

Kesäkoulun teemat ovat

Ilmoittaudu viimeistään 22. kesäkuuta: www.lyyti.in/kesakoulu17

 

DHH17 hackathon

Erilaiset digitaaliset aineistot olivat jälleen DHH17 hackathonissa hyvin hyödynnettyinä. Tänä vuonna työryhmiä oli neljä, ja aineistojen käsittelyyn oltiin jo varattu ennakolta hyvin aikaa ja valmistautumista rankkaan viikkoon. Ylätason teemat olivat

  • Categories, norms and genres – critical readings in numbers
  • The media and the political elite
  • Hated objects in eighteenth-century Britain
  • Mapping changes in cultural heritage conceptions

joista ryhmät saivat sitten pohtia itselleen sopivimman kiinnostuksen kohteen. Aineistona käytettiin myös Kansalliskirjaston digitaalisia aineistoja, sanomalehtiä ja Finnasta löytyviä metatietoja. Viikon työskentelyn jälkeen ryhmät koostivat tuloksensa postereiksi ja tässä tekstissä käydäänkin läpi tuotoksia loppuseminaarin esitysten mukaan.

Ryhmien tulosten kooste posterit

 

Esittämisjärjestyksen mukaan ryhmä 1 käsitteli ‘critical reading in numbers’ teemaa

Ryhmä käytti SVM(Support Vector Machine) -luokitinta luokittelemaan runoja, ja sen opetukseen ryhmässä poimitiin käsin opetusaineistoksi 120 runoa (460 tekstialuetta). Luokittimella poimituille runoille tehtiin aihemallinnusta (topic modeling) ja ne analysoitiin myös morfologisella POS (Part of Speech)  täggäys-työkalulla (LAS), jonka avulla niistä etsittiin variaatiota ajassa, paikassa tai julkaisussa. He vertasivat mm. kuinka verbejä adjektiiveja käytettiin suhteessa toisiinsa. Ryhmää jäi myös pohdituttamaan kuinka menetelmä toimisi laajemman aineiston kanssa, joka vaatisi laajemman opetusaineiston tekemistä. Lisäksi jatkotutkimuskohteena ryhmä pohti voisiko sama malli soveltua ylipäätään eri kirjallisuuden lajien tunnistamiseen.

 

Tiimi 2, eli ryhmä, joka toimi Ylen ja Helsingin Sanomien aineistojen parissa nosti tutkimuskysymyksekseen sen, että keitä mediassa kuullaan? Esimerkiksi yksittäisten poliitikkojen voi huomata visualisoinneista olevan näkyvissä hyvinkin samalla lailla eri medioissa. Kiintoisaa oli myös tehdyt vertailut eri medioiden välillä mielipiteiden eroista eri keskustelun aiheista, johon työkaluna käytettiin NRC Emotion-työkalua.

 

Tiimi 3 oli valinnut aiheekseen  “Emotion and location in the British 18th Century Luxury Discussions”, tässä aineistona käytettiin ECCO-aineistoa, eli Galen Eighteenth Century Collections Online-kokoelmaa vuosilta 1701-1800. Tavoitteena oli arvioida esimerkiksi kuinka lääketieteellinen kieli on aineistossa ollut mukana. Ryhmä keräsi noin 100 sanaa jotka liittyvät terveyteen, ja laajensivat tätä sanastoa 1500 termiin käyttämällä ECCOa. tästä he (menetelmällä, jota ei tarkemmin selitetty) saivat luotua mittarin tekstiaineiston lääketieteellisyydelle, jota käytettiin tutkimaan aineiston lääketieteellistä sisältöä ja termejä ajan suhteen.

Tiimi 4 tutki kulttuuriperintöpaikkoja ja digitaalisen ajan osallistumisen kulttuureja (Heritage sites and participatory cultures in the digital age). Hyödyntäen kaupallisia esimerkkejä, kuten Pokémon Go:ta esimerkkinä, ryhmä pohti voisiko kulttuuriperintökohteet toimia geokätköilyharrastajien motivaattorina. Tämähän olisi loogista, koska esimerkiksi Ingress ja Pokémon Go käyttää kulttuuriperintödataa peleissä “kohdepisteinään”. Ryhmä käytti R-ympäristön stm-kirjastoa rakenteisten aihemallinnusten luomiseksi (koko Suomen ja pienempien alueiden sisällä) ja yhtenä koealueena oli mm. Suomenlinna, josta olevaa aineistoa tutkittiin Finnasta löytyvien kuvien metatietojen avulla ja näin geokätköily ja RKY:n tarjoama dataa tuli hyödynnettynä.

Kaikkien ryhmien koodit löytyvät Githubista : https://github.com/dhh17 .

 

DHH17 oli jälleen onnistunut hackathon, jossa onnistuneesti jälleen tömäytettiin eri yliopistojen ja eri opintoalojen opiskelijoita yhteen, tekemään ja pohtimaan tutkimuskysymyksiä, että niiden toteutuksia yhdessä. Sekä ryhmän sisällä ja ryhmien välillä tapahtuu kiintoisaa ajatusten vaihtoa ja lisäksi on mahdollista löytää teknologioita, joita voisi mahdollisesti hyödyntää myös jälkeenpäin.

 

Kirjoittajat : Tuula Pääkkönen & Mika Koistinen

Kuvat: (C) Mika Koistinen

 

P.S. Digi.kansalliskirjasto.fi :n aineistopaketteja löytyy  http://digi.kansalliskirjasto.fi/opendata – sivulta, näet sieltä sekä nykykäyttäjiä, mutta voit ladata myös aineistopaketteja myös itse ja pohtia miten suuria tekstimassoja parhaiten voisi hyödyntää.

Deep learning and digital materials

On 4.5.2017 there was the Finnish Academy first Annual seminar with topic “Deep Learning & the Humanities”.

The opening words were given by Kia Lindroos chair of Digihum steering group, who mentioned as goals of all the funded projects

  • Examines digitalization as cultural and social phenomena
  • Employing open, multiform and/or real time data in research
  • Usability and awareness of dataset – not just possibilities today, but investigate possibilities of co-operation

She also mentioned about the good progress of Finnish projects by mentioning all of the projects, which were funded in the international Digging into Data challenge.

Professor Roger K Moore from University of Sheffield gave superbly interesting keynote on application of machine learning with regard to the speech recognition techniques. The keynote covered the past, but also way forward, as a way to connect humans and machines. The title of the talk was “Bridging the Gap Between Humans and Machines: Lessons from Spoken Language”. There seemed to be some familiar traits in speech as is in the OCR-mistake-rich old newspapers. Language (especially spoken) is incredibly variable; context-dependendent, relationship with behavior, environment – all these things influence understanding. Human being can learn as it goes, but configuring machines to do the same requires quite much of research and work. Interestingly, one solution seemed to be incremental speech recognition, going beyond stimulus – response cycles to a more evolutionary model, where the speech recognition is done piece by piece – then machines have better chance to catch the spoken word, or even ask for clarification if something went by.  Some of the material referenced at the key note can be found from this list.

Digitalia, newspapers, Comhis

 

Part of the seminar was also the presentations of all the projects who are part of the implementing the Digihum-program. E.g. Dr. Kimmo Kettunen presented Comhis (& Digitalia) in his presentation with the work done with historical newspapers who highlighted for example the importance of getting the articles extracted and going beyond the page level content, which is being researched now.

There were also presentations from the all of the projects, which got funding in the Digging in the Data -challenge, which were listed earlier. This collaboration can bring together collaborations from universities from different sides of the pond, and give good boost also to the Finnish projects, which were well represented all in all.

All in all, the digital humanism field seemed to have lots of interesting activities ongoing in different universities. Hopefully sessions like this bring working close together, when information is shared from one group to another. However,  the visualizations require also deep understanding of the data below, just recently there were some research done, how visualization can be modified on a dataset, even if the statistical properties stay the same.

 

 

Luova talous ja digitoidut aineistot

Opetus- ja kulttuuriministeriön tuoreessa raportissa “Luova talous ja aineettoman arvon luominen kasvun kärjiksi”, jossa työryhmä nimeltään: Luovat alat Suomen taouden ja työllisyyden vahvistajina, pohti kuinka luovat alat voivat ratkaista työllisyyteen ja kilpailukykyyn liittyviä tavoitteita. Koko raportti on luettavissa http://urn.fi/URN:ISBN:978-952-263-464-1 .

Aineetonta arvonluontia lähtee kulttuurin infrastruktuurista, johon myös digitoidut aineistot, tai muu kulttuuriperintöaineisto kuuluu.

Arvonmuodostus luovassa taloudessa.  Lähde

Työryhmä kirjaa huomioita, kuinka luovat alat voivat luoda skaalautuvia ja helposti monistettavia palveluita kuin myös uniikkituotteita ja -palveluita, jotka voisivat myös digitaalisuudesta hyötyä.

Kulttuuriosallistuminen tietoverkoissa kuitenkin on monimuotoista ja aktiivista. 88% suomalaisista käyttää internetiä kulttuuritarkoituksiin, 74% verkkolehtiin tai televisiokanavien uutissivustoihin jne. Mahdollisesti osa osallistumisesta päätyy kansainvälisiin verkkopalveluihin, joten kotimaisillekin palveluille olisi tilausta. Am. tilastossakin 2014 ja 2016 välillä on jo kysymyksiin lisätty uusia palveluja, jotka ovat napanneet jo osansa ajankäytöstä.

Lähde http://www.findikaattori.fi/fi/84

Työryhmä näkee aloissa kasvu- ja liiketoimintapotentiaalia, mutta pulmana on se, että luovaa osaamista markkinoidaan minimaalisesti yrityksille (s. 27). Toisaalta ratkaisuna nähdään kokeilut, jolla yhteistyötä voidaan kokeilla molemmin puolin, jotta lisäarvoa voitaisiin muodostaa. Luovien osaajien tulisi tuotteistaa osaamisensa, jotta tietoisuus potentiaalisilla hyödyntäjäyrityksillä kasvaisi eri mahdollisuuksista.

Digitaalisten aineistojen hyödyntämisessä ytimessä ovatkin ne ideat, joita aineistojen myötä syntyy. Aineistojen tunnettuus tuo ne uusien käyttäjien ulottuville, joista voi löytyä uusia tuote- tai palveluinnovaatioita.

Sovelluksia ja tuotteita

Digital Humanism Networks

There seems to be nowadays a buzzing community surrounding digital humanism. There is the Digital Humanism Finland, which resides mainly in the google group .

Then there is the new Heldig community, which relates to the Heldig centre of digital humanities, http://heldig.fi , but which also has a presence in social media, via Facebook group  and a #HelsinkiDH hashtag in Twitter.

Verkkojen laskeminen jään alle.

Suomen kalastuslehti, 01.01.1915, nro 3, s. 12 http://digi.kansalliskirjasto.fi/aikakausi/binding/877376/articles/2063628?page=12 Kansalliskirjaston Digitoidut aineistot

 

Then there are both new and old groups, which think on integrating research and practical IT (or ICT) work, like the Rajapinta https://rajapinta.co/association/ , or the Agricola forum about historical topics or APISuomi for thinking of interfaces between information systems. Lots of communities and lots of opportunities to network and share experiences. Summa summarum, there exists lots of community groups, so do join in and help if you are interested to promote certain topic!

With this in mind eagerly waiting what is happening in the Digital Humanities i Norden conference, which is just starting. There are lots of participants from universities around Nordics, sharing information about new research.

Which other communities there that share information on research topics?

Tallenna