Digitalian kuuma kesäkoulu

Digitaalisen tiedonhallinnan tutkimus- ja kehityskeskus Digitalia järjesti 22.8-24.8. kesäkoulun noin 50:lle hengelle, joista noin 30 suoritti koko kurssin ja muut osallistuivat luennoille. Kurssi järjestettiin Kansalliskirjaston auditoriossa, Helsingissä, jossa loppukesän aurinkoisina päivinä oli kuuma tunnelma.

Luennot

Luennoijat olivat monipuolinen kattaus professoreita ja kokeneita tutkijoita, jotka toimivat digitaalisuuden eri puolien parissa. 1. päivänä teema oli Digitaalisuus ja etiikka. Itä-Suomen yliopistosta (UEF) paikalla oli professori Tomi Voutilainen ja HTK Denis Galkin, joiden molempien esitykset pohtivat tietosuoja- ja tekijänoikeuskulmilta erilaisten aineistojen käyttöä. Professori Voutilainen kertoi kertoi suomalaisen oikeusrakenteen taustoista, joka on johtunut siihen, että lait viittaavat toisiinsa ja sieltä löytyy myös paljon toistuvia fraaseja, joilla “halutaan varmistaa, että varmasti on asiasta säädetty”. Saa nähdä nostaako EU:n tietosuoja-asetus, jonka vaikutuksia kulttuuriperintöaineistoille on pohdittu myös Kansalliskirjaston Aviisi-projektissa, keskustelua laajemminkin.

https://twitter.com/TuulaP/status/767611890969247744

Varmaankaan toistuvat säädökset ja entisaikojen hallintorakenteiden aiheuttamat lakikiemurat eivät aivan suoraan olisi näkyvissä Aalto-yliopiston Seco-tutkimusryhmän 2016 avaamasta semanttisesta Finlexistä , mutta kiinnostavaa olisi voisiko 2. päivänä puhutusta toistuvien uutisten/tekstikappaleiden tapahtuvasta uutisvirtojen seuraamisesta, menetelmiä, joita voisi käyttää muuallakin.

UEF:lla oli myös juuri tehty kyselyä asiantuntijoille suhteessa lainsäädännön nykytilaan, jota koettiin ainakin osittain sekavaksi ja uutta tiedonhallintakaarta pidettiin mahdollisuutena selkeyttää tilannetta.

Eräs digitaalisen tiedonhallinnan ongelmista nostetuista käytännön esimerkki oli että esimerkiksi verotiedot saa sähköpostilla, mutta ei ns. “teknisen väylän” kautta, jossa jopa määrittely vielä puuttuu.  Oikeus 2/2016 -lehdestä löytyy aiheesta artikkeli. Digitalisaatio on kuitenkin yksi hallituksen kärkihankkeista http://vm.fi/digitalisaatio, tai esimerkiksi http://digisuomi.fi -avaukset joten toivoisi, että sekä uuden EU:n tietosuojadirektiivin että em. tutkimuksen asiantuntijoiden vastauksissa toivottu tiedonhallintakaari olisi mahdollisuus saada tätä puolta eteenpäin.

Denis Galkin käsitteli henkilön omien tietoaineistojen käyttöä, joka on nykyään mydata ja erinäisten kauppojen keräämien tietojen takia monella tuoreessa muistissa. Käytiin läpi tiedollinen itsemääräämisoikeus, mitä kaikkea henkilötiedolla tarkoitetaan, rekisterinpitäjän velvollisuudet ja pohdittiin myös erityisesti sähköpostiaineistoja.

Vaikka joku olisi salassapidettävän aineiston julkaissutkin, niin se ei oikeuta levittämään sitä eteenpäin. Tutkijoilla voisi joskus olla mahdollisuuksia käyttää joitakin aineistoja historialliseen tai tilastolliseen käyttöön ja kuten päivän keskusteluissa pohdittiinkin aina on mietittävä eettiset kysymykset myös, koska aineisto(i)ssa voi olla henkilötietoja, jne. Kuitenkin esimerkiksi toimittajilla voi olla laajemmat oikeudet joissakin tapauksissa johtuen heidän roolistaan tiedon jakajina – ehkäpä siksi tuoreiden tapausten uutisointi tapahtuukin mediatalojen toimesta. Toisaalta, joskus taas aineistoja voi hyödyntää yksityiseen käyttöön, mutta ei taas muutoin. Kuitenkin luulisi olevan mahdollista luoda yleiskäyttöisä menetelmiä sähköpostiaineistojen käsittelyyn, mitä Digitaliassa MAMK:lla  tutkitaan – kuinka sähköpostiaineistoja selataan, käsitellään ja säilytetään.

Tampereen yliopistosta Tuija Kautto nosti tärkeän näkökulman eettisyydestä asiakirjahallinnassa:

Tuija kertoi että eettisiä säännöstöjä on useita, mutta organisaation tulisi pohtia omat käyttötarkoituksensa ja tarkentaa ja prosessoida, kun eettisen säännöstön haluaa ottaa käyttöön. Kuten myös aiemmin mainituissa tietovuototapauksissa, “jokaisen ammattilaisen tulisi pohtia omaa eettistä moraalipohjaansa”. http://digitalethics.org/

Avoin tiede ja tutkimus-hankkeessa on kerätty mm. datapolitiikkoja eri organisaatioilta, joissa saatetaan käydä läpi myös eettisiä kysymyksiä.  MAMK:n tutkimusjohtaja Noora Talsi pohti eettisyyttä taas tutkimusaineistojen puolelta, hyvä tieteellinen käytäntö ohjaa, sidonnaisuudet tulisi mainita, ja tutkija on itse vastuussa myös tutkimusprosessinsa eettisyydestä.

Kulttuuriperintöaineistot ja digitaalinen tiedonhallinta

Toinen päivä lähti vauhdikkaasti liikkeelle digitaalisen humanismin keinoin. Perusteista alkaen professori Mikko Tolonen esitti eri tapoja määritellä digitaalisen humanismin, perinteisestä, Suomen Akatemian käyttämiin, edeten työpaikkailmoituksiin, joita sekä HY:ltä , että Aallolta on ilmestynyt.

Paneelissa pohdittiin mm. että jossakin kohtaa pitää luopua “uuden teknologian käytöstä” DH:n määritelmässä tai kun aika kehittyy lisää, ehkä myös digitaalisuus sanasta tippuu sanasta, kunhan kulttuurimuutos etenee vuosien myötä. Digitalian tutkimuskoordinaattori Kimmo Kettunen muisteli tutkimusdatan käsittelyn vaihtoa aiemmin data pidettiin itsellä, nykyään pyritään avaamaan:

https://twitter.com/TuulaP/status/767972463028400128

Paneeli pohti myös, että nykyään haaste voi olla, että data on jollakin hallussa, mutta tutkijoiden käyttötarve olisi saada se aineistopakettina itselleen, jotta aineistoa voidaan pyöritellä omassa ympäristössä. Kehitettävät menetelmät kuitenkin voivat luoda yhteistä hyvää sekä alkuperäiselle organisaatiolle, kuten myös koko tutkijayhteisölle.

Digihistorian historiasta Suomessa kertoi professori Hannu Salmi, käyden läpi mm. Historiallisesta aikakauskirjasta löytyneitä artikkeleita aiheen kehityksestä kautta vuosien. Aiemmin oli mm. kuvattu tekstin editointiprosessin eroja tietokoneella tai käsin kirjoittaen, mitä ei ehkä nykypäivänä tule eri tekstinkäsittelyohjelmia käyttäessä edes pohtittuakaan. Jaakko Suominen muisteli,  että ennen digitointia, aineistoja käytiin läpi käsin – ilman kokotekstihakua tai edes listauksia lehdistä löytyvistä artikkeleista.

Kansalliskirjaston Digitalian osaprojektissa kohdeaineistona ovat digitoidut sanomalehdet, jotka ovat jo aiemmin paljon käytettyä aineistoa, mutta uudet menetelmät antavat vielä lisää mahdollisuuksia. Tutkijakoordinaattori Kimmo Kettunen kertoi digitoinnin jälkikäsittelyn haasteista, koska monet asiat tekevät tekstintunnistuksesta (OCR – Optical Character Recognition) vaikeaa, joka luo esteitä aineistojen löydettävyydelle ja käytettävyydelle. Kimmo puhuikin siitä, kuinka eri käyttötarkoituksiin on erilaisia tapoja käyttää, esimerkiksi digin peruskäyttöliittymänä, raakadata (josta on ensimmäinen kokeilupaketti saatu Comhis-projektin käyttöön) ja Kielipankin Korp-palvelu, jonka kautta pääsee aineistoja analysoimaan. Jälkikeskusteluissa kuulosti, että myös digitointia voitaisiin pohtia laajemmin yhdessä – miten aineisto valitaan digitointiin ja kuinka hallita tekniset pulmat tekstintunnistus, aina kasvava levytilan tarve, pitkäaikaissäilytys jne.

Digitaalisen tiedonhallinan kesäkoulu 23.8.2016

Digitaalisen tiedonhallinan kesäkoulu 23.8.2016

Professori Mikko Tolonen, puhui digitaalisten aineistojen käytöstä tutkimuksesta, korostaen, että oleellista on lähteä tutkimuskysymyksestä, joka luo pohjan käytetyille menetelmille ja työkaluvalinnoille. Mm. vuoden 2016 DHH16-hackathonissa yksi ryhmistä lähtikin analysoimaan siirtolaisuuden viestintää sanomalehdissä suhteessa siihen mitä reaalimaailmassa tapahtui. Comhis-projektista Hannu Salmi kertoi puolestaan tekstien uudelleenkäytön tunnistamisesta. Pyritään löytää keinoja löytää mm. klustereita toistuvista teksteistä , kuitenkin siten, että mahdollisesti eri paikoissa olevat OCR-virheet eivät tätä prosessia huonontaisi. Joitakin näitä esimerkkejä siirtyneistä artikkeleista löytyy aina sattumalta aineistoja selatessa, mutta hauskaa olisi jos voisimme tehdä linkkauksia muihinkin digitaalisiin aineistoihin.

Pearson's Magazine vs. NykyaikaPäivässä pohdittiin myös sähköisenä syntyneitä aineistoja, lähtien Suomi24-aineistosta, jonka professori Jaakko Suominen mainitsi olevan tunnetuin keskustelupalstana, mutta ensimmäisinä vuosinaan se toimi yleisportaalina. Aineisto on laaja: 53 miljoonaa kommenttia 6,8 miljoonassa eri ketjussa aina vuodesta 2001 lähtien. Aineistosta lisää löytyy “Suomi24 – muodonantoa aineistolle” raportista joka tehtiin Citizen Mindscapes-projektissa keväällä.

 

Summa summarum

On digitaalisia aineistoja, on laajoja digitaalisia aineistoja, on laajoja aineistoja jotka vaativat paljon esikäsittelyä, on sähköisesti syntynyttä aineistoa, on ns. analogisia aineistoja, joita ei koskaan digitoida, on digitaalisia aineistoja joihin ei ole käyttölupaa (tekijänoikeudet, tietosuoja, maksumuuri …) tai vain rajoitetusti, on dataa joka on kadoksissa tai väärässä muodossa, jolla on puutteellinen metadata tai aineistoa , jonka käsittelyyn ei ole keinoja tai prosesseja. Tällaista listaa pystyisi luonnostelemaan, kun pohti eri puolella toimivien ihmisten tutkimusaihioita. Eikä tässä vielä kaikki, tutkimusaineiston hallinta koko sen elinkaaren ajan, tiedonhallinta, prosessien kuvaaminen,  tietojärjestelmäprojektit (mistä niitä järjestelmiä oikein tuleekaan…), asiakaslähtöisyys ja aineistojen saatavuus tutkijoille mainittiin myös. Hyvää oli se, että kehityskohteita oli löydetty ja innostusta oli lähteä niitä selvittelemään – työtä kyllä digitaalisen tiedonhallinan tutkimukselle ja kehitykselle tuntuu kyllä riittävän jatkossakin.

Digital data, source http://xkcd.com/1683/

“digital data” – lähde: http://xkcd.com/1683/

Joitakin linkkejä päivien lomasta:

 

Lisää kokemuksia päivistä löytyy jo “Sukututkijan loppuvuosi”-blogista:  http://sukututkijanloppuvuosi.blogspot.fi/2016/08/digitaalisen-tiedon-kesakoulussa-mati.html  ja  http://sukututkijanloppuvuosi.blogspot.fi/2016/08/arkistoasiaa-ja-kirjallisuushistoriaa.html ja lisäksi twitteristä aihetunnisteella #Digitaliafi , voi selata päivien twiittejä ja mitä Digitaliassa tapahtuu jatkossa.

 

Tallenna

Tallenna

Tallenna

Tallenna

Tallenna

Tallenna

Tallenna

Tallenna

One thought on “Digitalian kuuma kesäkoulu

  1. Pingback: Tunnelmia digitaalisen tiedon kesäkoulusta | Mamk tutkii ja kehittää

Comments are closed.