Arkistopäivät 2019

Digitalia-väkeä oli myös paikalla arkistopäivillä 2019 yhdessä Finna-palveluiden kanssa. Arkistopäivät ovat arkisto-, museo- ja julkishallinnon toimijoiden yhteinen seminaari jossa päivitetään osaamista ja kerrotaan eri puolilla tapahtuvista kehityskohteista. Tämä neljän vuoden välein järjestettävä tapahtuma järjestettiin nyt yhdeksättä kertaa ja osallistujia oli yli 300.

Vieraita esittelypisteessä

Digitalia mainittiin Johanna Liljan esityksessä, kuten myös NewsEye -hanke, jossa jatketaan kansainvälisessä yhteistyössä myös sanomalehtien tutkimuskäytön parantamista.

Kautta päivien esitykset olivat hyviä ja osoitti arkistomaailman kehitystä digitaalisuuden suhteen. Puheenvuoroissa puhuttiin tietoturvasta yksilön ja organsaation näkökulmasta kuin myös siitä, ettei paikallisasiakkaita tule unohtaa. Arkistotyön arvoa tuotiin myös esille sekä käyttäjälöytöjen että tutkijoiden tarpeiden kautta. Digitaalisuus oli päivien sana ja siinä oli kiinnostavia kehityslinjoja jo olemassa, joista on kiinnostavaa nähde kuinka kaikesta saadaan loppukäyttäjäpalveluita. Tiedonhallintalaki oli myös monella mielessä ja seuraavien arkistopäivien aikaanhan se on jo toteutuksessa.

 

OECD:n tekoälyn peruspilarit

OECD julkaisi toukokuun lopulla tekoälykehitystyölle viisi periaatetta, joita sitä kehittäessä tulisi pitää lähtökohtina. Pidemmässä taustadokumentissa on myös avattu sanastoa ja annettu lisäselityksiä periaatteiden takana.

AI system: An AI system is a machine-based system that can, for a given set of human-defined  objectives, make predictions, recommendations, or decisions influencing real or virtual  environments. AI systems are designed to operate with varying levels of autonomy.([2], p. 7)

 

 

Alkuperäinen ja vapaamuotoinen käännös löytyvät ao. taulukosta.

AI should benefit people and the planet by driving inclusive growth, sustainable development and well-being. Tekoälyn tulisi tuoda ihmisille ja planeetoille hyötyä, kannustamalla mukaanottavaan kasvuun, kestävään kehitykseen ja hyvinvointiin.
AI systems should be designed in a way that respects the rule of law, human rights, democratic values and diversity, and they should include appropriate safeguards – for example, enabling human intervention where necessary – to ensure a fair and just society. Tekoälyjärestelmät tulisi suunnitella tavalla, joka kunnioittaa lain sääntöjä, ihmisoikeuksia, demokraattisia arvoja ja monimuotoisuutta, ja niiden pitäisi sisällyttää sopivat turvat – esimerkiksi ihmisen väliintulon tarvittaessa – mahdollistamaan rehellisen ja oikeudenmukaisen yhteiskunnan.
There should be transparency and responsible disclosure around AI systems to ensure that people understand AI-based outcomes and can challenge them. Tekoälyjärjestelmien tulisi olla  läpinäkyvia ja vastuullinen ilmoittaminen niistä, jotta ihmiset ymmärtävät tekoälypohjaiset lopputulokset ja voivat haastaa ne.
AI systems must function in a robust, secure and safe way throughout their life cycles and potential risks should be continually assessed and managed. Tekoälyjärjestelmien täytyy toimia vakaalla, tietoturvallisella ja turvallisella tavalla koko elämänkaarensa ajan ja mahdollisia riskejä tulisi koko ajan arvioida ja hallita.
Organisations and individuals developing, deploying or operating AI systems should be held accountable for their proper functioning in line with the above principles. Organisaatioiden ja yksilöiden jotka kehittävät, julkaisevat tai käyttävät tekoälyjärjestelmiä tulisi pitää vastuullisena siitä, että ne toimivat kunnollisesti ylläolevien periaatteiden mukaan.

Kiintoisaa nähdä, alkavatko nämä periaatteet nousta käyttöön. Kuitenkin jo 42 maata on omaksunut periaatteet ja asiantuntijaryhmä , joka määritelmät on luonut, on kerätty osallistujia eri puolilta.

Saksan tekoälystrategian 12 toimenpidealuetta

Saksan tekoälystrategia

Saksan tekoälystrategiassa liikutaan toimenpiteiden ja tavoitteiden välimaastossa. Vuoden 2018 lopussa tehdyssä strategiassa mainitaan 12 tavoitetta, jolla tekoälyn käyttöä valtiossa ja muuallakin yhteiskunnassa pyritään kasvattamaan.

Euroopassa

Euroopassa julkaistiin huhtikuussa 2019 ‘Ethics guidelines for trustworthy AI’ , jossa luotiin kehys, jonka puitteissa tekoälyä eri puolilla yhteiskuntaa tulisi kehittää, kuvattuna am. kuvassa [4].

Suomessa

Suomessa kansallinen tekoälyohjelma tunnetaan AuroraAI-nimellä jonka toimeenpanosuunnitelma pohjautuu ‘Tekoälyaika Suomessa’-raporttiin ja työryhmätyöhön jossa eri osioita on käsitelty laajemmin.

Antti Rinteen tuoreessa hallitusohjelmassa mainitaan tekoäly kahdeksan kertaa.

“Varmistetaan, ettei tekoälyjärjestelmissä hyödynnetä välittömästi tai välillisesti syrjiviä toimintamalleja.”

Joka tuntuisi olevan hyvin linjassa aiemmin esitettyjen tekoälyn periaatteiden kanssa.

 

Lähteet

[1] OECD. (2019b). OECD Principles on Artificial Intelligence. Osoitteessa http://www.oecd.org/going-digital/ai/principles/

[2] OECD. (2019a). OECD Legal Instruments. Osoitteessa https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449
[3] European Comission. (2019, huhtikuuta 8). Ethics guidelines for trustworthy AI [Text]. Noudettu 30. toukokuuta 2019, osoitteesta Digital Single Market – European Commission website: https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai
[4] The Federal Government. (ei pvm.). Home – KI Strategie. Noudettu 30. toukokuuta 2019, osoitteesta https://www.ki-strategie-deutschland.de/home.html?file=files/downloads/Nationale_KI-Strategie_engl.pdf

DHH19 – remote live notes

As has already been in earlier years, the DHH19 hackathon was due. This time there were:

  • 38 participants
  • 10 days
  • 4 teams and projects
  • Computer science + social science + humanities

This time DHH19 went international, and the group was versatile

 

There was communication part in each team, which explained at least the Twitter-using teams, and there were also interviews made from the participants.

13:20-14:30 Group presentations

DHH19-Brexit group

RQ: What is the relationship between social media and politics?

  • Types of tweets: retweet (massive amount), original, reply, quotes
  • Checked regional tweets, and who are the most dominant users.
  • 1 user can be responsible of certain combination of hashtags (whose account anyhow suspended)
  • Real-life events vs events on Twitter
  • Several hashtag groups can be identified and that was visualized and put to a timeline (as assumed that hashtag correlates to a time)

  • Research on subgroups: all users, verified users, members of parliament
  • Frequency analysis: most shared Twitter content vs. external content.
  • Blame : groups mobilise different content to futher their agenda
  • Who are people angry at?   “the anger scale”  (person id’s of angry tweets)
  • hashtags of MP’s ; hashtag avoidance by politicians? (removal of themselves from the discussion?)
  • Problems: how well the dataset matches the population, e.g. PM is missing from the data?
    • Experimented with NER, ‘May’ ends up as Date 🙂
    • tweet json contains so many fields, where rt’s and hashtags don’t get to correct field due to way how api was used
    • https://blogs.helsinki.fi/digital-humanities-hackathon/brexit
  • Couldn’t go further to data as historical data would have a cost of several thousands of euros.

 

 

DHH19-EU Parliament group

  • Update on communications
  • “We communicated”
    • the future, << political discourse & debate >>,  history, the past
  • What is EU?
  • Whole corpus
    • 249,955 speeches in English, 50M words, 2M sentences
    • metadata: speaker (name, country, political functions, gender, date, topic)
    • 2013 change in protocol, after 2013 , 99.7% of English speeches from UK and IRL
  • Created subcorpora:
    • picked keywords, to find suitable parts from data, brainstormed ideas for subset, observed data , topic modelling, word embedding… and selected keywords then
    • word ‘past’ might work if they talk about last session
    • Past: 13.230 speeches, future 5430 speeches, totaliariasmi 4517, climate change 12k
  • Key results
    • Past and future are very related
    • Construction of Future (network with ‘key hubs’)
    • Thinking conceptually what is the future
    • Topic modelling : which topics connected with the past or to the future
    • Sentiment analysis : speakers seem to be less emotional and more concrete while talking about future. (Utilized existing tools for doing analysis)

  • variance of sentiment analysis
  • analysis of sentiment analysis compared to gender, country -> by this noticed the 2013 issue
  • Qualitative analysis: close reading to extract ideas between past and the future. MP’s utilize ‘past’ elements as something to avoid or sometimes as some things to preserve & generic human values.

‘Future’ is something to plan , fear or hope for

* RQ: Case study 20thcenttot” How is the horseshoe theory present in discourse on the topic and how does it differ by region (E/W)?

  • strongly connected in discourse, with no significant differences between East and West
  • frequency analysis of specific terms, 2005 a spike visible .

* RQ: Case study: The climate crisis. How is climate change talked about in EP? Are there differences how diff countries talk about it?

  • Proportion of speeches in climate change, spike in 2007 to 2010 (combination of current events, 2008 – 2011 first impl of Kyoto protocol). Might be impacted by nbr of speeches
  • Sentiment analysis – by country , a problem found. E.g. Lux vs. IRL , sth in the data (number of speeches vs. climate speeches)
  • False positives and negatives in understanding the sentences.
  • Compared Finland & Spain: word clouds differ , in Finlandd emission, carbon at top, in Spain: water , mediterranean

Challenges

  • defining the past and the future: how to detect it in the corpus?
  • Missing English translated speeches and missing metadata
  • English corpus included other languages

More work to do: look at differences between political parties ; issues w dataset should be solved.

A break: coffee (&tea) consumption in DHH2019

15-16 Groups

DHH19-Genre and Style group

“Name-dropping in 18th century public discourse”

RQ: Which personal names are frequently mentioned in 18th century British publications?   On the basis of the freq and co-occ. of individual names, what kind of patterns can we detect that are characteristic of genres and time periods?

Data:

  • 18th century collections online (ECCO)
  • high representativeness: ca 50% of all 18th century British printed texts (180k titles, 32M pages)
  • OCR issues, unreliable metadata

Analysis

  • Keyword analysis
  • Three subset over time: hist, relig, social
  • Methods

Results:

  • “Even when data was good it was not standardized”
  • Name dropping was used in text (Queen elisabeth, Cicero,…)
  • Identified the most common people mentioned
  • Looked at this over time (20-year periods)
  • The people mentioned in books have some similarity context (network of books, clusters of religious texts, historical texts, social affairs where subclusters)
  • Origins of mentioned individuals (ancient, classical, early medieval, late medieval, renaissance, contemporary, NA)

Future research:

  • Automatic genre classification based on named entity networks
  • Improve NER and subsets by using domain-specific resources
  • examine less popular entities and their role
  • focus on 1st editions, inspecting specific sections of books
  • creating interactive visualizations

Communication: blogs medium & blogs.helsinki.fi, Twitter (1 post from everyone), Instagram.

DHH19 – Newspapers

Why newsppapers? “Most important public record from the past”

Research themes:

  • presence of ads
  • language of persuation

Approach

  • working in smaller groups, 2 meetings every day. Interlinking blogs

Results

  • Presence of ads in morning post 1800-1900
  • everything compared to the ads quantity
  • Åbo Underrättelser 1824-1890
    • Only a handful of finnish Newspapers have ad segmentation , none in 1892-…
  • The development of Ads in British Newspapers 1800-1900 : country, city and paper level
  • The pres. of ads in Morning post 1800-1900

The language of persuasion in advertisements

  • What linguistic strategies were used for persuading people into buying or using?
  • close reading of 1 newspaper issue per decade
  • Testimony : authority & ordinary people
  • Advertisements used adjectives, describing the high quality of the product – compared ratio of ads vs. articles -> no differences
  • Interesting was the ratio of words (ads vs. articles)   (ads used short sentences, easy to remember)

3. “The pills that cure everything – drug advertisements” ( a subcorpus)

  • compared gender
  • found out which illnesses the ads were targeted against
  • descriptive language compared between different ads, e.g. ‘nervous’ came less important in women ads, but not on males – treatment of the word maybe changed.
  • illustrations with the ads were interesting between diff genres (very different contexts, emotions visible for e.g. nervousness)

3. job advertisements, class and societal change?

  • most sought occupations in newspaper ads /HISCO categories
  • requirements connected to different occupations
  • social and cultural expectations regarding these jobs
  • differences between country in terminology, and even industrial changes
  • top 15 occupations in Åbo Underrättelser : e.g. teachers !

Problems

  • OCR…
  • article separation (british newspapers)

Plan for future research

  • 10 days, couldn’t do everything they wanted
  • typology, trajectories, rhetorical tropes, medical/drugs & hysteria, marketing strategies

Dashboards available online.

Summa summarum

Sounds like that the hackathon was very interesting and the teams got far. Tools were used in interesting ways. Need to be considered how the ideas here could be used in research and development work done in the Digitalia project, too. This gave good food for thought 🙂

 

“Ennen oli ennen…” – osa 2

Jatkoa 16.5.2019 olleeseen sanomalehtisymposiumin osaan 1.

Sessio 2

Digitoidut sanomalehdet feminismin historian tutkimuksessa Heidi Kurvinen (Turun yliopisto) osoitti sen kuinka lehdet, omalta osaltaan, näyttävät kirjonsa, milloin ilmiö saa “nimen” ja milloin käsite alkaa saada lisämerkityksiä , ja milloin positiivisia ja milloin negatiivisia. Pohdittavaksi jäi, kuinka voisimme auttaa tutkimusympäristön luomisessa ja vinkata muista palveluista tai valmisohjelmistoista joilla pääsee jo pitkälle. DH-tutkijan ei (minusta) tarvitse välttämättä edes ohjelmoida, usein systemaattinen ja oikeiden työkalujen, oikea käyttö vie jo pitkälle. Se sitten, mikä on missäkin tilanteessa sopivin työkalu onkin sitten jo pidempi tarina.

Amerikansuomalaisten sanomalehtien ja ylipäätään sirtolaislehtien digitointia toivottiin. Aikakauslehdissä on jonkin verran, jotka löytyivät ikään kuin sattumalta, kun alettiin katsomaan lehtien ilmestymispaikkoja, mitäs ihmettä nämä New York – ilmestymispaikat ovatkaan?

 

Digitoitu sanomalehtiaineisto ja julkisen kuoleman käsittelyn tutkiminen Anna Huhtala (Tampereen yliopisto) . Tässä esityksessä lähestyttiin yhtä teemaa, jota aina välillä pohdimme sopimusneuvottelujen ja aineiston autenttisuuden parissa. Aineisto on aina aikakautensa näköinen. Toimitukselliset kriteerit ovat aikojen kulussa muuttuneet, ja journalistiset ohjeetkin on loppujen lopuksi luotu vasta 1950-luvulta, kun ensimmäiset etikettisäännöt lehtimiehille julkaistiin ja josta sitten hiljalleen kehittyi Julkisen sanan neuvosto ja journalistiset ohjeet. Murhenäytelmiä ja tragediaa…  mutta toisaalta “millaisia teemoja valtavirralle tarjottiin lohdutukseen”, komentoi puhuja. Leikkeet olivat myös tässä tutkimuksessa oleellinen apuväline, joka auttoi tutkimusaineiston järjestelyssä.

Pilapiirrosten tulkinta historiallisen diskurssin osana Meri Arni-Kauttu (Itä-Suomen yliopisto). Osittain palattiin jo ensimmäisissä sessioissa puhuttuihin stereotypioihin, mutta toisesta tulokulmasta. Olikin hieno kuinka esityksen kansikuvaa katsoikin tutkimusaiheen kuvauksen jälkeen aivan uusin silmin. Tosiaan, keiden näkökulmasta pilakuva olikaan tehty? Näyttää siis, että vaikka tekoäly ehkä “näkee” kuvituksen, niin silti kuvan ymmärtäminen ja kontekstin luominen onkin jo vaikeampi tapaus. Tutkimusta tarvitaan! Mainittiin esimerkiksi nimekkäät taiteilijat , kuten Alex Federley. Pikaisena digivinkkinä, nykyinen Digin “näytä kuvitukset”-toiminto pohjautuu sivun tekstiin ja digitoinnin jälkiprosessoinnin analyysiin suvasta. Haku tehdään sivun tekstiin pohjautuen, eli jos kuvan yhteydestä löytyy haluttu hakusana (esim. A. Federley) ja sivulta löytyy kuva, niin tällöin se näytetään haussa. Epätarkkuutta aiheuttaa se, että emme voi olla varma mihin tekstiin sivulla kuvitushaku osuu – se voi olla parhaimmillaan kuvateksti, mutta sanomalehdissä jotakin aivan muuta. Digissä kokeiltava esimerkkihaku: kuvitus + kuvituksen tekijä hakulauseessa sivun sisältöön pohjautuen (vain aikauslehdet) . Muokkaa ja katso mitä löytyy!

Sessio 3

Puoluehistoria ja sanomalehtiaineisto Kati Katajisto (Helsingin yliopisto). Tässä tutkimuksessa tuli hyvin esille kuinka aineiston kanssa saa olla tarkkana, erityisesti jos hakusana on yleissana, jolloin koivu ei välttämättä ole nimi tai voi olla ihan vain tuttu puulajike, … Joten hakutuloksia kannattaa aina tarkastella kriittisesti, nouseeko tietyn hakusanan ilmentymät koska asia aidosti on lehdissä merkittävä, vai vaikka vain siksi, että jokin mainoskampanja on aikanaan käynnistynyt, jossa tietty sana sitten esiintyy. Täytyy tuntea tekstin tai aineiston ominaispiirteet ja miten eri hakutulokset siihen suhtautuvat.

 

Kunnanvaltuustojen perustaminen ja sen herättämä demokratiakeskustelu lehdistössä 1890-1917 Sami Suodenjoki (Tampereen yliopisto) . Tässä kunnanvaltuustotyössä yhtenä tuloksena oli kunnanvaltuustotietojen lisääminen suoraan myös Wikipediaan, jolloin niihin pystyttiin lisäämään myös lähdetiedot, mistä lehdestä tietyn kunnanvaltuuston perustaminen löytyikään. Yleisöstä kommentoitiin, että hyvä olisi hyödyntää ehkä myös WikiDataa, jolloin tiedoista saisi ehkä myös entistä rakenteisemman ja mahdollisuuden linkittää dataa paremmin keskenään. Wikidata olisi muutenkin tiettyjen asioiden kanssa hyödyllinen, joten asiaa pitää pitää vireillä muutenkin.

Mormonien vaiheet 1800-luvun suomalaislehdistön kuvaamana Kim Östman (Åbo Akademi) oli hiukan aiemmin tehty tutkimus, mutta silti kiinnostava ja nykyaikaankin sopiva. Kuinka uusi ilmiö Suomeen tulee, ja millaista keskustelua se aiheuttaa lehdistössä tai ympäröivässä yhteiskunnassa. Kiinnostava ajatus oli, että tulisiko muista uskontokuntien tulosta Suomeen vastaavanlainen keskustelu , ja ylipäätään milloin ja milloin yksittäisitä mielipiteistä tuleekin yhteinen julkinen mielipide, joka alkaa ruokkia itseään?

Sessio 4

16:00-16:15 Näkökulmia Fenno-Ugrican sanomalehtien tutkimuskäyttöön Niko Partanen (Kotimaisten kielten keskus)  osoitti sen, että laajasta digitaalisesta tarjonnasta on hyötyä ja mitä etua on, kun sama teksti löytyy useampana käännöksenä aineistojen joukosta (Github).  Tässä kohtaa symposiumissa jäätiin pohtimaan tekstintunnistusta ja siihen liittyviä työkaluja – oikeastaan tekstintunnistus ei ehkä enää olekaan se ongelma (ainakin malleja pystyy opettamaan ja työkalut kehittyneeet), mutta haaste voikin enemmän olla se, kuinka hailakka sivukuva saadaan segmentoitua niin, että tekstintunnistukselle tarjotaan sopiva alue, josta teksti saadaan luotettavasti ulos. Sanat, virkkeet, kuvatekstit, mainokset, ovat pulma, kun lehtien rakenne vaihtuu vuosikymmenittäin, ja opetusaineistonkin teko on hidasta, tai kuten Digitalia-projektissa on huomattu, eri lehdet voivat vaatia oman mallinsa. Ehkä voikin tehdä vain työtapamallin, jolla erilaisia lehtiä taklataan, ja jatkaa työtä lehti lehdeltä eteenpäin, mahdollista hyvän, avoimen lähdekoodin, segmentointityökalua odottaessa.

16:15-16:30 Digitaalisten aineistojen käyttö väitöskirjatutkimuksessa Inkerin kirkon nousu ja suomalaiset 1988-1993 Antti Luoma (Helsingin yliopisto) . Aineistojen valinnassa voi olla myös monipuolinen – erityisesti jos tutkimus vaatii tuoreampien aineisotojen käyttöä, tällöin tulee ilmi se, että koko lehti on digitoitu koko historialtaan vain muutaman lehden osalta ja tätä avattiinkin keskustelussa seminaarissa.

Ylipäätään tämä avasi tutkijan haasteita, aineistoa etsitään eri puolilta, hieman eri tavoin, ja näin saadaan luotua laajempi kuva tutkittavasta kohteesta yhdistämällä arkistomateriaalia, sanomalehtiä ja vaikka jopa TV-ohjelmia, jotka voivat osaltaan käynnistää keskustelun sanomalehdissä ja sitten taas ilmestyä arkistomateriaaliin tovin kuluttua. Yhtenä kiitoskohteena aiemmin mainittujen aineistojen lisäksi mainittiin  Kavi:n Ritva-tietokannan kanssa oleellista on metadata, jolloin voi helposti löytää haluamastaan teemasta ohjelmia.

 

16:30-16:45 Painettujen ja käsinkirjoitettujen lehtien vertaileva tutkimus – digitoinnin tuomat uudet mahdollisuudet ja haasteet Kirsti Salmi-Niklander (Helsingin yliopisto). Takaisin paperiin! Kaikkea ei kuitenkaan ole digitoitu ja yksi esimerkki tästä on pienehköt teemalehdet, joita ei välttämättä ole julkaistu vaan jaettu rajatussa piirissä, kun tavoitteena on ollut esimerkiksi välttää sensuuria. Käsinkirjoitettujen lehtien löytämisessä on jo omat haasteensa, ja irtolehtien koostaminen on jo iso työ, kun metadatakin on luotava itse. Toivotaan, että NewsEye- tai Read-projektin eteneminen käsinkirjoitetun tekstin tunnistuksessa etenee nykyisellä vauhdilla, niin sitä voisi käsinkirjoitettuihin ainistoihin käyttää.

Summa Summarum

“Helppo tiedonhaku auttaa ymmärtämään omaa kulttuuria”

HS:n pääkirjoitus 21.5.2019.

Seminaarissa osallistujana yksi taustateema oli, että kuinka monipuolista ja kiinnostavaa tutkimusta eri yliopistoissa tehdään. Vaikka yhteistä ei ehkä ole kuin osa aineistoista, tai palvelu josta aineisto löytyy, osaan ideoista on löydettävissä ratkaisuja, jotka auttavat monia. Digi.kansalliskirjasto.fi -esitysjärjestelmän kehityksen yksi kantava ajatus onkin ollut, että lisättävät toiminnot olisivat yleishyödyllisiä – toimintoja, jotka toimivat sekä tutkijoille, että muille käyttäjille, jolloin yhdellä toiminnolla saadaan eri käyttäjäryhmät katetuksi edes osin, jolloin tie jää auki jatkaa siitä eteenpäin.

“Aineistot ovat työväline”

Symposiumin lopussa huokaistiin myös ylläoleva “Aineistot ovat työväline” , eivätkä itsetarkoitus. Kukin toki innostuu aineistosta tai työkalusta, jolla pääsee haluamaansa asiaa tekemään, mutta ytimenähän on tutkimuskysymys ja sen ratkaiseminen. Luonnollisesti digitaalisten aineistojen kehittäjänä (sekä sisältö eli digitointi että palvelun toiminnallisuuksien kannalta) , haaste on ennakoida tulevia toiveita – sisältötuotanto etenee omaa vauhtiaan projektien myötä, ja sen lomassa aineistojen rikastaminen päästää syvemmälle jo nyt tehtyjen digitointien suhteen – kuinka helpottaa hakua ja antaa uusia mahdollisuuksia saada kuvaa vaikka aineiston osakohteista, jotka voivat edelleen nostaa mahdollisuuksia uusien tutkimuskysymysten käsittelyyn. Esimerkiksi juuri julkaistussa tutkimusartikkelissa (Hiding in Plain Sight: Poetry in Newspapers and How to Approach it) siitä kuinka DHH17-hackathonissä tehtiin runojen etsintää sanomalehdistä verraten käsityötä ja koneoppimista, jossa huomattiin että molemmista menetelmissä on hyötynsä ja molempia voi hyödyntää samanaikaisestikin.

Eteenpäin

Toivottavasti sanomalehtisymposium järjestetään ensi vuonna uudestaan ja voimme laajentaa kestoa ja saada lisää osallistujia, jotka toimivat muidenkin aineistolähteiden parissa tai jos on aineistoja joihin toivoisi pääsevän käyttämään, mutta keinoa ei vielä ole löytynyt.

Tavoitteena on parantaa tutkijayhteistyötämme, jossa työmalleina onkin jo olleet tutkijoiden aamukahvit, dataklinikat eri yliopistoissa, osallistuminen ja esittäminen eri tutkimusyhteisöjen seminaareissa ja erilaiset julkaisut. Palautetta voi vakiotavoin jatkuvasti antaa, ja käytämme mielellämme hyviä ideoita palveluiden (teknisten tai tutkijapalvelujen ylipäätään) jatkokehityksessä. Esimerkiksi Digitalia-projektin tuotoksia alkaa hiljalleen Digi-palveluun ilmestyä, uutuuksista lisää myöhemmin tässä blogissa.

 

“Proof is in the pudding” – osa 1.

Ensimmäinen Kansalliskirjaston tutkijapalveluiden sanomalehtisymposium järjestettiin 16.5.2019. Tällä kertaa keskityimme sanomalehtiaineistoihin, tarkoituksena saada kuvaa aineistojen käyttötavoista juuri nyt, nykyisillä sopimusmalleilla ja käyttöehdoilla. Tavoitteenamme oli kerätä tietoa mikä tilanne on nyt, mitä toiveita on, ja miten jatkossa tulisi varautua nykyisen lehtiaineistojen tutkimuskäytön suhteen. Halusimme saada mahdollisimman laajasti kokemuksia eri puolilta ja siksi kasvatimme seminaarin kestoa aiotusta, kun hyviä ehdotuksia tuli niin paljon, joista halusimme itse tietää ja antaa mahdollisuuden myös tutkijoille kuulla toisistaan, kun yhteisenä tekijänä on saman aineistokokonaisuuden osa – vaikka tutkimusaiheet ja -alat vaihtelivat teologiasta feminismin tutkimukseen, tai arkkiveisuista, liki nykypäivään.

Iso kissa vasemmalla ja pikkukissoja rivissä

Tie vapauteen, 01.09.1922, nro 9, s. 9
https://digi.kansalliskirjasto.fi/aikakausi/binding/1360361/articles/3278605?page=9
Kansalliskirjaston digitaaliset aineistot

Ylikirjastonhoitajan tervetuliaispuheen jälkeen, jossa korostettiin tutkimuksen tärkeyttä ja yhteistyötä aineistojen ja tutkijoiden kesken, pääsivät puhujat irti! Kansalliskirjaston omalla tutkimus- ja kehitystyön kertomuksilla aloitettiin, jotta päivä saatiin käyntiin ja kaikki paikalle. Digi.kansalliskirjasto.fi  – palvelun uutuuksista mainittiin, kuten samana päivänä julkaistusta uudesta avauksesta. Kerrottiin myös Digitalia-projektin tuomista uutuuksista lyhyesti, mitä seuraavaksi julkaistaan, eli tekstintunnistuksen korjauksesta, artikkelinpoiminnasta, nimien poiminnasta ja kuvitusten luokittelusta, joita aletaan pian viemään tuotantoon kohdelehteen eli Uuteen Suomettareen ja toivottavasti siitä eteenpäin (hiljalleen) mitä prosessointiteho antaa myöten.

Digitalian Kimmo Kettunen kertoi tekstintunnistuksen korjauksista, joka on oleellinen vaihe ennen nimien poimintaa, jotta virheiden määrä vähenee. Tunnistus paranee, joka taas parantaa aineistojen löydettävyyttä. Kun yleisöstä kysyttiin mitä tutkimuksen jälkeen tapahtuu, niin Kimmo kertasi, Kansalliskirjaston DH-tutkimuksen ja aineistojen rikastamisen pääidean: “Proof is in the pudding”, eli ajatus on, että tutkimuksen tuotokset viedään tuotantoon ja aina Digi-esitysjärjestelmään saakka, jolloin tutkijat ja kansalaiset voivat yhtä lailla hyödyntää aineistoja tehokkaammin tai uusin keinoin, kumpaa sitten parempana pitääkään.

Juha Rautiainen kertoi kiinnostavasta NewsEye-projektista, jossa ajatus on viedä työkalukehitystä vielä eteenpäin. Tutkijat saavat uusia työkaluja, joilla prosessoida aineistoja ja joilla pääsevät nopeammin tutkimuskysymystään vastaavaan aineistoon. Näitä työkalujen ensimmäisiä versioita testattiin jo NewsEye-projektin omassa kokoontumisessa  alkuviikosta, joten kehitys etenee sielläkin saralla.

Jussi-Pekka Hakkarainen paljasti tulevia suunnitelmia lehtiaineistojen tutkimuskäytön suhteen. Olemme saaneet tämän ensimmäisen pilotin aikana palautetta siitä, että miksi vain tietty tutkimusryhmä saa aineistot käyttöön, ja toinen naapurista ei, miksi vuosiraja on tietty, eikä jokin muu ja mitäs oikeastaan aineistoilla nyt sai tehdäkään?  Näihin kysymyksiin,  työnimellä Tutkain aloittanut neuvotteluprosessi pyrkii löytämään ratkaisuja hyvässä yhteistyössä tekijänoikeusjärjestön (eli lehtien oikeudenhaltijoiden) kanssa. Suunnitelmat ovat vielä hyvin alkuvaiheessaan, ja työ aivan alussa, joten kärsivällisyyttä ja positiivisia ajatuksia neuvottelijoiden suuntaan.

Varoitus: Alla oleva tulkinta esityksistä on kirjoittajan, esityksiä oli kuitenkin lukuisia, joten osa vivahteista on voinut jäädä huomaamatta, josta pahoittelut virheistä jo etukäteen. Ideoita tuli tulvimalla!

Sessio 1.

Historiallinen sanomalehtikirjasto on fantastinen!

Tarja Luukkanen toi mieleen ne kaikki tarinat, uutiset joita sanomalehtiainistosta löytyy. Kuinka esimerkiksi August Ahlqvist oli vuonna 1860 saanut suureelliset juhlat, ja sitten hautajaiset 1889 ja kuinka tämän jälkeinen sanomalehtikeskustelu nosti hänestä kansallista suurmiestä. Miten Topeliuksen tarina on luonut suomalaisen miehen prototyyppiä, jopa stereotyyppiä, josta ehkä ei vieläkään ole päästy täysin irti. Hienoa oli kuulla tällaisestä pitkäaikaisesta tutkimuksessa, jossa edetään systemaattisesti aineiston parissa!

Toiveina: lehtien “luokittelu”, eli mitä puoluekantaa lehdet olivat (esimerkiksi hyödyntäen Suomen sanomalehdistön historian -teossarjassa jo olevaa tätä tietoa),  lehden levikki ja agenda.

Lehdistössä julkaistuja paikalliskirjeitä kokoava Translocalis-tietokanta Heikki Kokko (Tampereen yliopisto):  kertoi kuinka aineistokoelmansa, joka on tehty digin perustoimintojen avulla on edennyt siihen vaiheeseen, että pallo heitetiin kohti Kansalliskirjastoa ja miettiä kuinka leiketoimintoa voisi hyödyntää eteenpäin. Lehtileikkeet ovat olleet yllättävä menestys ja hyvä tapa tutkijoille kerätä tutkimusaineistoa talteen.

Biografinen materiaali ja sen löytäminen Kaisa Kyläkoski, esitti  kiinnostava katsaus henkilöhistoriaan ja samalla sai kuvaa mitä kaikkea suositun bloginsa taustalla tapahtuu (lyhyesti sanoen). Hän on ollut palvelun parissa jo vuodesta 2004, joten matkan varrella hän on voinutkin havaita kuinka palvelu on hiljalleen muuttunut. Kaisalta taisikin tulla kiitos niinkin perustoiminnosta kuin hakutulosten järjestämistä kronologisesti, joka oli yhden hänen kirjaprojektinsa näin pelastanutkin. Hän oli myös konkreettisesti kokenut nimien löytämisen vaikeuden – kuinka tekstintunnistuksen virheet tai jopa välimerkit voivat haussa aiheuttaa yllätyksiä, mutta toisaalta myös uusia löytöjä.

”Maaseudun tulevaisuus on ihan loistava aineisto”

Digitoitu lehtiaineisto ja historiantutkimus: kokemuksia ja kehittämiskohteita Hannu Salmi (Turun yliopisto), kertoi useammastakin projektista joissa tutkimusryhmänsä on sanomalehtien kanssa työskentelemässä. Yksi näistä on tuttu Comhis, jossa Kansalliskirjastokin on mukana, tämän lisäksi kuulimme myös mannerten yli ulottuvusta tutkimuksesta nimeltään OceanicExchanges, jossa viedään tutkimusteemoja vielä laajemmalle, globaaleihin uutisiin ja niiden leviämiseen. Ovelaa oli se, että samanlaisten geeni, tekstipätkien etsinnässä pystytään osin kiertämään tekstintunnistuksen heikkoudet ja virheet, jolloin pystytään löytämään kuinka uutiset ovat siirtyneet lehdestä toiseen ja ajassa eteenpäin. Ovatko aikansa kirjoittajat arvanneet, että aika merkittävä määrä artikkeleita on ilmestynyt myöhemmissä lehdissä uudestaan, 10 , 20, 40, tai jopa 100 vuoden kuluttua?

Tässä puheessa tuli myös esille se, että on myös arvokasta, että joitakin lehtiä on olemassa koko julkaisuhistorialtaan – tällöin tiettyjä teemoja (esimerkiksi ilmastoon liittyviä) voidaan seurata systemaattisesti lehden sisällön kautta. Pääetenemä digitoinnissa menee vuosittain, ja yksittäisiä lehtiä on tehty digitointikumppanuuksina, joka on mahdollistanut näiden muutaman lehden osalta kattavan katsauksen – tällöin on luonnollista, että näihin harvinaisuuksiin, jotka ovat helposti käytettävissä koko julkaisuhistorialtaan, että ne saavat huomiota tutkijoilta.

Vaka, vanha mikrofilmi!

Päivän aikana tuli myös kiitosta mikrofilmeille – sekin on kuitenkin tapa välttää paperiseen originaaliin tarttumista, sivujen selailu kuitenkin onnistuu (ja aineiston talletus omalle tikulle) vaikka hakua ei olekaan. Mikrofilmit ovat kuitenkin kattavasti lehdille tehty, säilytystavoitteiden saavuttamiseksi. Eräälle kysyjälle korjaukseksi näin jälkikäteen, lehdet ovat Pohjoissalissa saatavilla vuoteen 1945 ja tätä tuoreemmat tulee tilata etukäteen. Syynä tähän, että tila on salissa kuitenkin rajattu, joten käytetyimmät lehdet löytyvät valmiina, eli joitakin lehtiä löytyy myös pidemmälle. Lista lehdistä  ja ohjeita mikrofilmien tilauksesta löytyy verkkosivultamme ja mikrofilmiskannerin käytöstä on myös ohjevideo.

Päivän pohdinta jatkuu seuraavassa blogikirjoituksessa…

DigiSuomi-seminaari 2019

DigiSuomi-tapahtuma järjestettiin 14-15.5.2019. Osallistuimme siihen ensi kertaa, kiinnostuneena kuulemaan muita asiantuntijoita, kuntien ja valtion virastojen muita tekijöitä, ja miten digitaalisuutta Suomesta kehitetään. Digitointi, digitaalisuus, digitaalisen tiedon hallinta ja sen rikastaminen on Digitaliaa lähellä, mutta tulipa seminaarissa myös tietojohtaminen aika ajoin eri tahoilta mainittuna.

Vertailupohjaa sai jo ensimmäisestä avauspuheenvuorosta, Euroopan innovaatisimmaksi pääkaupungiksi, valitun Ateenan CDO:n Konstantinos Champidiksen kertomus kuinka Ateenassa digitalisaatiolla saatiin tiukasta lähtötilanteesta, jossa sekä rahoitusongelmia, henkilöstövajeita ja vielä maahanmuuttokriisi, saatiin digitalisaatiolla tilannetta selkeämmäksi ja paremmaksi. Lähtötilanteessa Suomen digitaalisen teknologian integraatioindex on DTEI oli 79%  ja Kreikan 36%, josta kaupungin tilannetta alettiin kehittämään. Kolme perusolettamaa olivat: siirtymä älykkäistä kaupungeista digitaaliseen muutokseen, digitaalisuus ei ole väistettävissä vaan on välttämätöntä ja että on paljon kysymyksiä joihin vastauksia tarvitaan. Ratkaisuna nähtiin CDO-roolin luominen ja siihen panostaminen  Digital Council:n avulla (johon kuuluu kaupungin johtoa ja merkittävien yritysten pääjohtajat), ja Digitaalisuuden Tiekartta, jolla luotiin suunnitelma eteenpäin. Lopputuloksena oli akuuttien ongelmien nopea ratkaisu, Maker Space-konseptin tuominen, e-Frontdesk  – kansalaisten aktivointi eri tavoin ylipäätään. Näillä muutoksilla Ateena on päässyt parantamaan palveluja kaikille ja lopputulema olikin tuo edellä  mainittu palkinto innovatiivisuudesta.

Jarkko Moilanen muistutti rajapintojen ja alustapalvelujen tärkeydestä.

Suuret alustapalvelut ovat muualta kuin Euroopasta, joka asettaakin tänne haasteen kuinka eteenpäin – ratkaisuksi annettiin rajapinnat, joilla kumppanit, muut kehittäjät voivat jatkaa ja tehdä omia sovelluksiaan peruskäytön päälle.

Tähän  hieno jatko oli VM:n Maria Nikkilä, joka kertoi Suomen AuroraAI-hankkeesta osana esitystään, jossa kerrottiin kuinka tekoäly jalkautuu julkiselle sektorille. Tekoälyohjelman loppuraportissa olikin annettu yksitoista kokonaisuutta, jotka luovat raamit jatkolle

Tämä tuntuikin tutulta, yht’äkkiä, kuten Digitalia-projektissakin oli huomattukin, havaitsemme että ihan omassa projektissa ollaankin tekemässä kuvitusten luokittelua tekoälyä hyödyntäen  ja päädymmekin annotoinnin pulmiin, eli mistä saisi tarpeeksi digitaalista dataa, jotta tekoälyn opetusmallista saadaan tarpeeksi kattava ja monipuolinen. Tekoäly tulee hiljalleen, niin että emme huomaakaan :). Hyvä esimerkki tästä on 28.5. järjestettävä “Tekoäly tuli töihin” -seminaari, jossa katsotaan kuinka jo nyt tekoälyä kirjastotyössä käytetään, joko automaattisen kuvailun (ks. annif.org) tai muiden työkalujen tai menetelmien kautta.

Kiinnostava oli myös esitys Apotti-hankkeesta, joka on Etelä-Suomen sosiaali- ja terveysohjelmistojen kehityksistä varmasti merkittävin hanke pitkään aikaan. Kuulimme hallintamallista ja siitä kuinka hallintamallil itsessään kehittyi, projektin aikataulusta ja skenaarioista, mutta myös käytännön vinkeistä kuinka toimittajien kanssa voi kommunikointi olla vaikeaa , mutta minkälaisilla keinoilla siitäkin pääsee yli.

Yhteenvetona, kiinnostava tapahtuma, jossa oli myös uusia puhujia, joilla oli hyviä näkökulmia joko kuntien tai valtion roolista ja kenen pitäisi koordinoida ja ketä, joten toivottavasti keskustelu jatkuu eteenpäin. Oli myös kiinnostavaa keskustella muiden osallistujien kanssa ja kuulla hiukan epävirallisemmin millaisia haasteita esim. GDPR-vaatimukset ovat eri puolille tehneet.

ISSN:1457-4721

Uusi Suometar on ollut Digitalia-projektissa kohdelehti, josta lähtien olemme rakentaneet uusia ratkaisuja aineistojen parantamiseen ja rikastamiseen. Valitsimme Uusi Suometar-lehden, useastakin syystä johtuen:

  • Lehti on yksi Kansalliskirjaston Digissä, käytetyimmistä lehdistä (kautta aikojen).
  • Lehden aikajana ulottuu vuodesta 1869 aina vuoteen 1918, joten lehti on kokenut kaikenlaista. Esimerkiksi artikkelinpoiminnassa huomattiin, kuinka palstamäärät ovat kasvaneet kahdesta aina yhdeksään ja sitten taas vähentyneet.
  • Lehti on sopivan ikäinen, vanhin aineisto on tekijänoikeuksista vapaata ja voimme käyttää sitä muidenkin tutkimusryhmien kanssa vertailuun.
  • Lehti on sopivan kokoinen, siinä on yli 80.000 sivua, joten aineistomäärä on sopiva kattavuuden kannalta – oletus on että erilaiset erikoistilanteet (eri laatuiset alkuperäisaineiston lajit, sivut joilla on vain kuvia, jne.) tulevat jo tässä sivumäärässä esille.

Nimienpoimintaa varten olemme tehneet tekstintunnistuksen uudestaan kaikille Uuden Suomettaren lehdille. On hyvä varautua siihen, että kunhan nämä uudet sivutiedostot tuodaan digiin, se voi muuttaa hakuosumia nykyisestä, koska lehden indeksoidut sisältötektit päivittyvät paremmiksi.

Lehdestä voi myös digin avoindata-sivulta ladata alkuperäiset ALTOT, mutta myös uudet altot joihin on sovellettu Digitalia-projektissa kehitetty tekstintunnistuksen korjausmenetelmää.  Löydät siitä lisätietoja artikkelista Open Source Tesseract in Re-OCR of Finnish Fraktur from 19 th and Early 20 th Century Newspapers and Journals-Collected Notes on Quality Improvement .

 

Mikkelin Tieteen päivät 2019

Mikkelin yliopistokeskus järjesti tänä vuonna ensimmäistä kertaa “Mikkelin Tieteen päivät” 9.-13.4.2019.  Aiemmin vain Helsingissä olleen seminaarikavalkaadista tehtiin mikkeliläinen versio, aikomuksena tuoda tiedettä lähemmäksi eri sukupolvia. Luentoja järjestettiin eri puolilla Mikkeliä, mm. lukiossa, kirjastossa, ja tietysti itse yliopistokeskuksessa.

Puhujia oli monenlaisia, sekä humanisteja, että tietojenkäsittelijöitä, filosofeja ja kosmologeja ja aiheet yhtä moninaisia liikenteen kehityksestä , digitalisaation ja kuluttajan mahdollisuuksiin uudenlaisessa palveluympäristössä. Lisäksi myös viime vuoden Tieteenkesyttäjä junior voittaja kertoi opiskeluistaan Helsigin yliopiston valtiotieteellisessä tiedekunnassa ja hän nostikin viime hetkien tuoreita teemoja esitellen, kysyen yleisölle mitkä niistä ovat indikaatio pysyvistä muutoksista.

Kaikilta esittäjiltä kysyttiin myös lukusuosituksia, joita löytää Mikkelin kirjaston erikoissivustolta ja kirjastossa valittuja kirjoja voi napata näyttelystä lainattavakseen. Hieno esimerkki lainausinnon kasvusta on Rantakylän koulun Iku-Turso , jossa lukuhirviö kasvoi lukemisen edetessä.

Vanhoja digitoituja kirjoja löytää myös digi.kansalliskirjasto.fi -palvelusta, valitse vain aineistolajiksi ‘kirjat’. Mahdollisesti jatkossa niistä tehdään myös aineistopaketteja tiedonlouhintaa varten, joten lainathan palautetta, jos sinulla olisi tarvetta tietynlaiselle aineistopaketille esim. kielen tai vuoden mukaan lajiteltuna.

P.S. Lauantaina 13.4. klo 12-15.30 Päämajatalossa on vielä Tieteen päivien tapahtuma, joten kipi kapi ohjelmaa tutkimaan, jos vielä askeleet eivät ole Tieteen päiville vieneet. Aina on mahdollista laajentaa omaa maailmanpiiriään ja löytää yllättäviä suosikkeja, oman piirin ulkopuolelta.

Vierailu LUT-yliopistossa

Helsingin yliopiston ja Digitalian väkeä kävi tutustumassa Mikkelin yliopistokeskuksen järjestämään tutustumismatkaan LUT-yliopistossa, Lappeenrannassa. Kiitokset järjestäjille, matka oli erittäin mielenkiintoinen ja herätti uusia ajatuksia.  Saimme katsauksen LUT-yliopiston tutkimukselliseen ja opetukselliseen tilanteeseen ja kuinka yliopisto, eri mittareilla, löytyykin ihan Suomen yliopistojen kärkikaartista.

Toiminta oli vireää, jota osoitti mm. suhteellisen tuoreelta kuulostava ViipuriLAB, joka ei nimestään huolimatta liity Viipurin alueeseen, vaan on kokoavana elementtinä tietyille tutkimussuunnille, vahvistaen sitten organisaatiota laajemmin.  Analytiikan hyödyntäminen ja eri päätöksiin johtavat reitit ovatkin nykyään kehityksen alla erilaisissa organisaatioissa, jotta muuttuva ympäristö ja sieltä tulevat signaalit osattaisiin ottaa huomioon päätöksenteossa ja linjauksissa.

 

Loppuhuipennuksena kävimme vielä tutustumassa LUT-yliopiston, J. Hyneman Center:n – protopajaan, jossa kurssien prototyyppejä voi rakennella. Saimme esittelyn labran mahdollisuuksiin, metalli-, puupajaan ja osaavaan henkilöstöön, joka auttaa opiskelijoita tarvittaessa. Huhtikuun lopussa on taas protopajan projektien esitelystä esittelypäivä, johon jäämme toivomaan etäyhteysmahdollisuutta.