Aineistonhallintasuunnitelmatyöpajasta

Helsingin yliopiston kirjaston datatuki-työryhmä järjesti DMPTuuli-työpajan 19.6.2017 Helsingissä, Kaisa-talossa. Tavoitteena oli hackathon-maisesti pohtia erityisesti historian tutkijoiden näkökulmasta kuinka yleisesti hankesuunnitelmissa tarvittu aineistonhallintasuunnitelma tehdään ja voisiko näistä eri tapauksista luoda jonkinlaisen ‘arkkityypin’, josta uusia suunnitelmia tekevät voisivat hyötyä omia suunnitelmia tehdessään.

Alussa kävimme läpi hieman taustaa ja motivaatiota aineistohallintasuunnitelmille ja mitä rahoittajat ja arkistointikäytännöt vaativat. Viitattiin myös Suomen Akatemian ohjeistuksiin aineistonhallintasuunnitelmasta joista löysyy myös tarkennukset, mutta kannattaa tarkistaa onko omalla rahoittajalla  tarkempia ohjeistuksia.

Aineistolajeja osallistujilta

Dataa, pulmia, ratkaisuja

Osallistujat olivat monenlaisista tutkimusaiheista, joten aineistojen kanssa oli erilaisia käytännön pähkinöitä pohdittavaksi joissa ongelmat vaihtelivat eettisistä aina teknisiin. Miten mainita aineiston käyttöluvat, jos niitä ei olekaan kirjallisina? Missä kaikkialla aineistoja voisi säilyttää ja mitkä hyödyt ja riskit eri paikoissa on? Esimerkkinä kerrottiin mm. tietojenkäsittelytieteen puolella esitetty esimerkki, kun koodi on jo jaettu ja ns. “kasvamassa” eri palveluissa tai vaikka linux-jakeluissa, niin tarvitseeko samaa koodia enää pitkäaikaissäilyttää , kun evoluutio on hoitanut jo sen joka puolelle? Lisäksi pohdittiin työryhmissä eri tiedonhallintapaikkojen hyviä ja huonoja puolia, kenen käyttöehtoihin luotat ja miten itse voisi ennaltaehkäistä katastrofia aineistojen käytettävyyden suhteen.

Sisältö <> työkalu

Työryhmäosiossa keskusteltiin aineistonhallintasuunnitelmaan liittyviä kysymyksiä auki , kukin katsoen asiaa oman tutkimuksensa tai -aineistonsa näkökulmasta. Vaikka osa teki tätä DMP Tuuli työkalussa, niin työkalu sinänsä vaikutti suoraviivaiselta. Pulma on kuinka vastata aineistohallintakysymyksiin, joita työkalu tutkijan eteen laittaa. Kaikki kysymykset on oleellisia ja tavoite niissä on hyvä. Ytimessähän on varmistaa, että seuraavakin aineistoa käyttävä pääsee kärrylle siitä mistä aineistossa on kyse. Tutkimusdata pitäisi nähdä arvokkaana resurssina, jota voidaan käyttää myös myöhemmin, joten siitä huolehtiminen on merkittävä osa tutkimusprosessia useimmilla aloilla.  Kun käytännöt jo ovat hyvät, aineistohallintasuunnitelma antaa mahdollisuuden kirjoittaa ne talteen ja toisaalta jos vasta on aloittamassa tutkimusprosessia, niin sitten aineistonhallintasuunnitelman voi nähdä ohjeistavan oikealle polulle jo alusta lähtien. DMPTuuli-työkalu näyttää sekä suomalaisia että Helsingin yliopiston omia aineistonhallintaohjeita ja ajatuksia herättäviä kysymyksiä, vakiovastauksia ei ole annettu. Jossa toki puolensa ja puolensa – aineistoja on niin monia eri tyyppejä, joten yksi tapa ei käy kaikille ja saman tutkimusprosessin hankkeen aikana voi päästä käsittelemään useitakin erilaisia aineistotyyppejä.

Rohkeasti siis aineistohallintasuunnitelmia tekemään. Datatukiverkosto auttaa ja aina voi jutella kollegan kanssa, jos jokin aiheuttaa pulmia. Suunnitelman tulee olla mietitty omaan tilanteeseen sopivaksi, mutta aivan pikkutarkalle tasolle ei tarvitse mennä, kun kuitenkin ohjeispituus on noin 1-2 sivua, mikä on kuitenkin josuhteellisen paljon hakesuunnitelmien rajatusta sivumäärästä. DMPTuuli työkalu näyttäisi olevan hyvä apuväline, joten sen kysymysten avulla pääsee alkuun ja jos johonkin kysymykseen ei helpolla tulekaan vastausta, niin ainakin on aihe selvillä, joka tarvitsee selvittää.

Animated gif of getting RefWorks citation from digi

Itse jäin pohtimaan voisiko digi.kansalliskirjasto.fi -palvelun puolella luoda lisää mahdollisuuksia tutkijoille ja listata muutamia keinoja joilla sekä viitata, että käyttää aineistoihin, mutta asia vaatii vielä suunnittelua. Kommentoi alle, jos heti keksit jotakin, jota digiin voisimme kehittää.

Aika ja paikka: ma 28.8. ja ma 4.9. klo 10-12 (Kaisa-talo, Fabianinkatu 30, 5.krs, atk-luokka 5057). (Tilaisuus ei vaadi ilmoittautumista.)

 

Lisäksi keskustakampuksella järjestetään alkusyksystä kaikille tieteenaloille yhteisiä työpajoja, joihin teidän on toki myös mahdollista osallistua. Alla näiden kaikille yhteisten tiedot – ja huom. näihin tulee ilmoittautua e-lomakkeen kautta.

P.S. Lisää työpajasta Mildred-projektin blogissa.

P.P.S. Syksyllä järjestetään lisää työpajoja, joten tiedoksi historian tai muiden lähialueiden tutkijoille:

DMPTuuli workshops, City centre campus

Place:  IT class (5057; 5th floor) of the Helsinki University Main Library in Kaisa building (Fabianinkatu 30).

The location of the class can be checked here:

http://www.helsinki.fi/kirjasto/files/1614/5502/4087/paakirjasto_kerroskartat2016_eng.pdf

Thu, 24 August 2017 at 10-12 am

Tue, 29 August 2017 at 12-2 pm

Wed, 6 September 2017 at 2-4 pm

Thu, 14 September 2017 at 10-12 am

Mon, 18 September 2017 at 12-2 pm

Wed, 20 September 2017 at 2-4 pm

Enrollments by 18 August 2017:

https://elomake.helsinki.fi/lomakkeet/81078/lomake.html

 

Digitalian yhteenvetojulkaisu luettavissa

Digitalia-projektissa tehtyjä artikkeleita digitaalisen tiedonhallinnan eri osioista on nyt julkaistu. Sähköinen versio on vapaasti ladattavissa Theseuksessa.

Iloisia lukuhetkiä ja palauetta tai toiveita jatkoartikkeleihin voi tekijöille toki esittää!

Suomalaisia juhannustapoja

Hyvää kesää kaikille Digitalian yhteistyökumppaneille ja muille kiinnostuneille!

P.S. muista myös kesäkoulu elokuulla, vielä on hetki aikaa ilmoittautua.

Digitaalisen tiedon kesäkoulu 2017

Digitaalisen tiedonhallinnan tutkimus- ja kehittämiskeskus Digitalia kehittää menetelmiä tiedon tehokkaaseen käsittelyyn ja hyödyntämiseen. Digitalian perustivat kesällä 2015 Mikkeliin Kaakkois-Suomen ammattikorkeakoulu, Helsingin yliopisto ja Kansalliskirjasto.

Ilmoittaudu viimeistään 22. kesäkuuta: www.lyyti.in/kesakoulu17 . Lisätiedot  https://www.xamk.fi/kesakoulu/

Kesäkoulussa kuulet johtavien asiantuntijoiden puheenvuoroja, saat alan uusinta tutkittua tietoa ja tutustut käytännön caseihin. Kuinka EU:n uusi tietosuoja-asetus vaikuttaa rekisterinpitäjien velvollisuuksiin? Missä mennään EU:n tekijänoikeusuudistuksessa? Miten parannamme aineistojen saatavuutta ja käytettävyyttä? Entä mitä omille tiedoillemme tapahtuu? Digitaalisuudesta on todellista hyötyä vasta kun kykenemme hyödyntämään digitaalista tietoa oikein.

Kesäkoulu on maksuton ja suunnattu ensisijaisesti digitaalisen kulttuuriperinnön, tiedonhallinnan ja arkistoinnin opiskelijoille, tutkijoille ja muille asiantuntijoille. Mikäli kurssilla on tilaa, osallistujat myös muilta aloilta ovat tervetulleita. Luennoille mahtuu 70 osallistujaa.

Työskentelytapana ovat luennot ja hackathon. Saat halutessasi osallistumistodistuksen. Mahdollisista opintosuorituksista ja niiden laajuudesta osallistujat sopivat oman oppilaitoksensa kanssa. Voit osallistua kaikkiin kolmeen teemapäivään tai vain osaan niistä.

Kesäkoulun teemat ovat

Ilmoittaudu viimeistään 22. kesäkuuta: www.lyyti.in/kesakoulu17

 

DHH17 hackathon

Erilaiset digitaaliset aineistot olivat jälleen DHH17 hackathonissa hyvin hyödynnettyinä. Tänä vuonna työryhmiä oli neljä, ja aineistojen käsittelyyn oltiin jo varattu ennakolta hyvin aikaa ja valmistautumista rankkaan viikkoon. Ylätason teemat olivat

  • Categories, norms and genres – critical readings in numbers
  • The media and the political elite
  • Hated objects in eighteenth-century Britain
  • Mapping changes in cultural heritage conceptions

joista ryhmät saivat sitten pohtia itselleen sopivimman kiinnostuksen kohteen. Aineistona käytettiin myös Kansalliskirjaston digitaalisia aineistoja, sanomalehtiä ja Finnasta löytyviä metatietoja. Viikon työskentelyn jälkeen ryhmät koostivat tuloksensa postereiksi ja tässä tekstissä käydäänkin läpi tuotoksia loppuseminaarin esitysten mukaan.

Ryhmien tulosten kooste posterit

 

Esittämisjärjestyksen mukaan ryhmä 1 käsitteli ‘critical reading in numbers’ teemaa

Ryhmä käytti SVM(Support Vector Machine) -luokitinta luokittelemaan runoja, ja sen opetukseen ryhmässä poimitiin käsin opetusaineistoksi 120 runoa (460 tekstialuetta). Luokittimella poimituille runoille tehtiin aihemallinnusta (topic modeling) ja ne analysoitiin myös morfologisella POS (Part of Speech)  täggäys-työkalulla (LAS), jonka avulla niistä etsittiin variaatiota ajassa, paikassa tai julkaisussa. He vertasivat mm. kuinka verbejä adjektiiveja käytettiin suhteessa toisiinsa. Ryhmää jäi myös pohdituttamaan kuinka menetelmä toimisi laajemman aineiston kanssa, joka vaatisi laajemman opetusaineiston tekemistä. Lisäksi jatkotutkimuskohteena ryhmä pohti voisiko sama malli soveltua ylipäätään eri kirjallisuuden lajien tunnistamiseen.

 

Tiimi 2, eli ryhmä, joka toimi Ylen ja Helsingin Sanomien aineistojen parissa nosti tutkimuskysymyksekseen sen, että keitä mediassa kuullaan? Esimerkiksi yksittäisten poliitikkojen voi huomata visualisoinneista olevan näkyvissä hyvinkin samalla lailla eri medioissa. Kiintoisaa oli myös tehdyt vertailut eri medioiden välillä mielipiteiden eroista eri keskustelun aiheista, johon työkaluna käytettiin NRC Emotion-työkalua.

 

Tiimi 3 oli valinnut aiheekseen  “Emotion and location in the British 18th Century Luxury Discussions”, tässä aineistona käytettiin ECCO-aineistoa, eli Galen Eighteenth Century Collections Online-kokoelmaa vuosilta 1701-1800. Tavoitteena oli arvioida esimerkiksi kuinka lääketieteellinen kieli on aineistossa ollut mukana. Ryhmä keräsi noin 100 sanaa jotka liittyvät terveyteen, ja laajensivat tätä sanastoa 1500 termiin käyttämällä ECCOa. tästä he (menetelmällä, jota ei tarkemmin selitetty) saivat luotua mittarin tekstiaineiston lääketieteellisyydelle, jota käytettiin tutkimaan aineiston lääketieteellistä sisältöä ja termejä ajan suhteen.

Tiimi 4 tutki kulttuuriperintöpaikkoja ja digitaalisen ajan osallistumisen kulttuureja (Heritage sites and participatory cultures in the digital age). Hyödyntäen kaupallisia esimerkkejä, kuten Pokémon Go:ta esimerkkinä, ryhmä pohti voisiko kulttuuriperintökohteet toimia geokätköilyharrastajien motivaattorina. Tämähän olisi loogista, koska esimerkiksi Ingress ja Pokémon Go käyttää kulttuuriperintödataa peleissä “kohdepisteinään”. Ryhmä käytti R-ympäristön stm-kirjastoa rakenteisten aihemallinnusten luomiseksi (koko Suomen ja pienempien alueiden sisällä) ja yhtenä koealueena oli mm. Suomenlinna, josta olevaa aineistoa tutkittiin Finnasta löytyvien kuvien metatietojen avulla ja näin geokätköily ja RKY:n tarjoama dataa tuli hyödynnettynä.

Kaikkien ryhmien koodit löytyvät Githubista : https://github.com/dhh17 .

 

DHH17 oli jälleen onnistunut hackathon, jossa onnistuneesti jälleen tömäytettiin eri yliopistojen ja eri opintoalojen opiskelijoita yhteen, tekemään ja pohtimaan tutkimuskysymyksiä, että niiden toteutuksia yhdessä. Sekä ryhmän sisällä ja ryhmien välillä tapahtuu kiintoisaa ajatusten vaihtoa ja lisäksi on mahdollista löytää teknologioita, joita voisi mahdollisesti hyödyntää myös jälkeenpäin.

 

Kirjoittajat : Tuula Pääkkönen & Mika Koistinen

Kuvat: (C) Mika Koistinen

 

P.S. Digi.kansalliskirjasto.fi :n aineistopaketteja löytyy  http://digi.kansalliskirjasto.fi/opendata – sivulta, näet sieltä sekä nykykäyttäjiä, mutta voit ladata myös aineistopaketteja myös itse ja pohtia miten suuria tekstimassoja parhaiten voisi hyödyntää.

Deep learning and digital materials

On 4.5.2017 there was the Finnish Academy first Annual seminar with topic “Deep Learning & the Humanities”.

The opening words were given by Kia Lindroos chair of Digihum steering group, who mentioned as goals of all the funded projects

  • Examines digitalization as cultural and social phenomena
  • Employing open, multiform and/or real time data in research
  • Usability and awareness of dataset – not just possibilities today, but investigate possibilities of co-operation

She also mentioned about the good progress of Finnish projects by mentioning all of the projects, which were funded in the international Digging into Data challenge.

Professor Roger K Moore from University of Sheffield gave superbly interesting keynote on application of machine learning with regard to the speech recognition techniques. The keynote covered the past, but also way forward, as a way to connect humans and machines. The title of the talk was “Bridging the Gap Between Humans and Machines: Lessons from Spoken Language”. There seemed to be some familiar traits in speech as is in the OCR-mistake-rich old newspapers. Language (especially spoken) is incredibly variable; context-dependendent, relationship with behavior, environment – all these things influence understanding. Human being can learn as it goes, but configuring machines to do the same requires quite much of research and work. Interestingly, one solution seemed to be incremental speech recognition, going beyond stimulus – response cycles to a more evolutionary model, where the speech recognition is done piece by piece – then machines have better chance to catch the spoken word, or even ask for clarification if something went by.  Some of the material referenced at the key note can be found from this list.

Digitalia, newspapers, Comhis

 

Part of the seminar was also the presentations of all the projects who are part of the implementing the Digihum-program. E.g. Dr. Kimmo Kettunen presented Comhis (& Digitalia) in his presentation with the work done with historical newspapers who highlighted for example the importance of getting the articles extracted and going beyond the page level content, which is being researched now.

There were also presentations from the all of the projects, which got funding in the Digging in the Data -challenge, which were listed earlier. This collaboration can bring together collaborations from universities from different sides of the pond, and give good boost also to the Finnish projects, which were well represented all in all.

All in all, the digital humanism field seemed to have lots of interesting activities ongoing in different universities. Hopefully sessions like this bring working close together, when information is shared from one group to another. However,  the visualizations require also deep understanding of the data below, just recently there were some research done, how visualization can be modified on a dataset, even if the statistical properties stay the same.