“Proof is in the pudding” – osa 1.

Ensimmäinen Kansalliskirjaston tutkijapalveluiden sanomalehtisymposium järjestettiin 16.5.2019. Tällä kertaa keskityimme sanomalehtiaineistoihin, tarkoituksena saada kuvaa aineistojen käyttötavoista juuri nyt, nykyisillä sopimusmalleilla ja käyttöehdoilla. Tavoitteenamme oli kerätä tietoa mikä tilanne on nyt, mitä toiveita on, ja miten jatkossa tulisi varautua nykyisen lehtiaineistojen tutkimuskäytön suhteen. Halusimme saada mahdollisimman laajasti kokemuksia eri puolilta ja siksi kasvatimme seminaarin kestoa aiotusta, kun hyviä ehdotuksia tuli niin paljon, joista halusimme itse tietää ja antaa mahdollisuuden myös tutkijoille kuulla toisistaan, kun yhteisenä tekijänä on saman aineistokokonaisuuden osa – vaikka tutkimusaiheet ja -alat vaihtelivat teologiasta feminismin tutkimukseen, tai arkkiveisuista, liki nykypäivään.

Iso kissa vasemmalla ja pikkukissoja rivissä

Tie vapauteen, 01.09.1922, nro 9, s. 9
https://digi.kansalliskirjasto.fi/aikakausi/binding/1360361/articles/3278605?page=9
Kansalliskirjaston digitaaliset aineistot

Ylikirjastonhoitajan tervetuliaispuheen jälkeen, jossa korostettiin tutkimuksen tärkeyttä ja yhteistyötä aineistojen ja tutkijoiden kesken, pääsivät puhujat irti! Kansalliskirjaston omalla tutkimus- ja kehitystyön kertomuksilla aloitettiin, jotta päivä saatiin käyntiin ja kaikki paikalle. Digi.kansalliskirjasto.fi  – palvelun uutuuksista mainittiin, kuten samana päivänä julkaistusta uudesta avauksesta. Kerrottiin myös Digitalia-projektin tuomista uutuuksista lyhyesti, mitä seuraavaksi julkaistaan, eli tekstintunnistuksen korjauksesta, artikkelinpoiminnasta, nimien poiminnasta ja kuvitusten luokittelusta, joita aletaan pian viemään tuotantoon kohdelehteen eli Uuteen Suomettareen ja toivottavasti siitä eteenpäin (hiljalleen) mitä prosessointiteho antaa myöten.

Digitalian Kimmo Kettunen kertoi tekstintunnistuksen korjauksista, joka on oleellinen vaihe ennen nimien poimintaa, jotta virheiden määrä vähenee. Tunnistus paranee, joka taas parantaa aineistojen löydettävyyttä. Kun yleisöstä kysyttiin mitä tutkimuksen jälkeen tapahtuu, niin Kimmo kertasi, Kansalliskirjaston DH-tutkimuksen ja aineistojen rikastamisen pääidean: “Proof is in the pudding”, eli ajatus on, että tutkimuksen tuotokset viedään tuotantoon ja aina Digi-esitysjärjestelmään saakka, jolloin tutkijat ja kansalaiset voivat yhtä lailla hyödyntää aineistoja tehokkaammin tai uusin keinoin, kumpaa sitten parempana pitääkään.

Juha Rautiainen kertoi kiinnostavasta NewsEye-projektista, jossa ajatus on viedä työkalukehitystä vielä eteenpäin. Tutkijat saavat uusia työkaluja, joilla prosessoida aineistoja ja joilla pääsevät nopeammin tutkimuskysymystään vastaavaan aineistoon. Näitä työkalujen ensimmäisiä versioita testattiin jo NewsEye-projektin omassa kokoontumisessa  alkuviikosta, joten kehitys etenee sielläkin saralla.

Jussi-Pekka Hakkarainen paljasti tulevia suunnitelmia lehtiaineistojen tutkimuskäytön suhteen. Olemme saaneet tämän ensimmäisen pilotin aikana palautetta siitä, että miksi vain tietty tutkimusryhmä saa aineistot käyttöön, ja toinen naapurista ei, miksi vuosiraja on tietty, eikä jokin muu ja mitäs oikeastaan aineistoilla nyt sai tehdäkään?  Näihin kysymyksiin,  työnimellä Tutkain aloittanut neuvotteluprosessi pyrkii löytämään ratkaisuja hyvässä yhteistyössä tekijänoikeusjärjestön (eli lehtien oikeudenhaltijoiden) kanssa. Suunnitelmat ovat vielä hyvin alkuvaiheessaan, ja työ aivan alussa, joten kärsivällisyyttä ja positiivisia ajatuksia neuvottelijoiden suuntaan.

Varoitus: Alla oleva tulkinta esityksistä on kirjoittajan, esityksiä oli kuitenkin lukuisia, joten osa vivahteista on voinut jäädä huomaamatta, josta pahoittelut virheistä jo etukäteen. Ideoita tuli tulvimalla!

Sessio 1.

Historiallinen sanomalehtikirjasto on fantastinen!

Tarja Luukkanen toi mieleen ne kaikki tarinat, uutiset joita sanomalehtiainistosta löytyy. Kuinka esimerkiksi August Ahlqvist oli vuonna 1860 saanut suureelliset juhlat, ja sitten hautajaiset 1889 ja kuinka tämän jälkeinen sanomalehtikeskustelu nosti hänestä kansallista suurmiestä. Miten Topeliuksen tarina on luonut suomalaisen miehen prototyyppiä, jopa stereotyyppiä, josta ehkä ei vieläkään ole päästy täysin irti. Hienoa oli kuulla tällaisestä pitkäaikaisesta tutkimuksessa, jossa edetään systemaattisesti aineiston parissa!

Toiveina: lehtien “luokittelu”, eli mitä puoluekantaa lehdet olivat (esimerkiksi hyödyntäen Suomen sanomalehdistön historian -teossarjassa jo olevaa tätä tietoa),  lehden levikki ja agenda.

Lehdistössä julkaistuja paikalliskirjeitä kokoava Translocalis-tietokanta Heikki Kokko (Tampereen yliopisto):  kertoi kuinka aineistokoelmansa, joka on tehty digin perustoimintojen avulla on edennyt siihen vaiheeseen, että pallo heitetiin kohti Kansalliskirjastoa ja miettiä kuinka leiketoimintoa voisi hyödyntää eteenpäin. Lehtileikkeet ovat olleet yllättävä menestys ja hyvä tapa tutkijoille kerätä tutkimusaineistoa talteen.

Biografinen materiaali ja sen löytäminen Kaisa Kyläkoski, esitti  kiinnostava katsaus henkilöhistoriaan ja samalla sai kuvaa mitä kaikkea suositun bloginsa taustalla tapahtuu (lyhyesti sanoen). Hän on ollut palvelun parissa jo vuodesta 2004, joten matkan varrella hän on voinutkin havaita kuinka palvelu on hiljalleen muuttunut. Kaisalta taisikin tulla kiitos niinkin perustoiminnosta kuin hakutulosten järjestämistä kronologisesti, joka oli yhden hänen kirjaprojektinsa näin pelastanutkin. Hän oli myös konkreettisesti kokenut nimien löytämisen vaikeuden – kuinka tekstintunnistuksen virheet tai jopa välimerkit voivat haussa aiheuttaa yllätyksiä, mutta toisaalta myös uusia löytöjä.

”Maaseudun tulevaisuus on ihan loistava aineisto”

Digitoitu lehtiaineisto ja historiantutkimus: kokemuksia ja kehittämiskohteita Hannu Salmi (Turun yliopisto), kertoi useammastakin projektista joissa tutkimusryhmänsä on sanomalehtien kanssa työskentelemässä. Yksi näistä on tuttu Comhis, jossa Kansalliskirjastokin on mukana, tämän lisäksi kuulimme myös mannerten yli ulottuvusta tutkimuksesta nimeltään OceanicExchanges, jossa viedään tutkimusteemoja vielä laajemmalle, globaaleihin uutisiin ja niiden leviämiseen. Ovelaa oli se, että samanlaisten geeni, tekstipätkien etsinnässä pystytään osin kiertämään tekstintunnistuksen heikkoudet ja virheet, jolloin pystytään löytämään kuinka uutiset ovat siirtyneet lehdestä toiseen ja ajassa eteenpäin. Ovatko aikansa kirjoittajat arvanneet, että aika merkittävä määrä artikkeleita on ilmestynyt myöhemmissä lehdissä uudestaan, 10 , 20, 40, tai jopa 100 vuoden kuluttua?

Tässä puheessa tuli myös esille se, että on myös arvokasta, että joitakin lehtiä on olemassa koko julkaisuhistorialtaan – tällöin tiettyjä teemoja (esimerkiksi ilmastoon liittyviä) voidaan seurata systemaattisesti lehden sisällön kautta. Pääetenemä digitoinnissa menee vuosittain, ja yksittäisiä lehtiä on tehty digitointikumppanuuksina, joka on mahdollistanut näiden muutaman lehden osalta kattavan katsauksen – tällöin on luonnollista, että näihin harvinaisuuksiin, jotka ovat helposti käytettävissä koko julkaisuhistorialtaan, että ne saavat huomiota tutkijoilta.

Vaka, vanha mikrofilmi!

Päivän aikana tuli myös kiitosta mikrofilmeille – sekin on kuitenkin tapa välttää paperiseen originaaliin tarttumista, sivujen selailu kuitenkin onnistuu (ja aineiston talletus omalle tikulle) vaikka hakua ei olekaan. Mikrofilmit ovat kuitenkin kattavasti lehdille tehty, säilytystavoitteiden saavuttamiseksi. Eräälle kysyjälle korjaukseksi näin jälkikäteen, lehdet ovat Pohjoissalissa saatavilla vuoteen 1945 ja tätä tuoreemmat tulee tilata etukäteen. Syynä tähän, että tila on salissa kuitenkin rajattu, joten käytetyimmät lehdet löytyvät valmiina, eli joitakin lehtiä löytyy myös pidemmälle. Lista lehdistä  ja ohjeita mikrofilmien tilauksesta löytyy verkkosivultamme ja mikrofilmiskannerin käytöstä on myös ohjevideo.

Päivän pohdinta jatkuu seuraavassa blogikirjoituksessa…

At DHN18 conference

Digitalia was well represented in the Digital Humanities i Norden conference, which was held during 7-9.3.2018 in Helsinki.

Results and work of Digitalia was presented for example, in a short paper called: “Creating and using ground truth OCR sample data for Finnish historical newspapers and journals” (paper and slides). This paper was one of the few,  which was given the label of distinguished short paper. Also the notification of the ground truth material got some interests in social media, so maybe we will have others who are interested to improve OCRring methods to experiment with the base data. We got also some ideas on how to improve the data packages, which we can probably improve down the line.

Ongoing work was also visible in the poster session via poster, which describe all of the ground breaking work targeted to make next steps with processing the materials easier. The poster was titled: “Research and development efforts on the digitized historical newspaper and journal collection of The National Library of Finland”. Based on the amount of people who were using newspapers or especially Finnish newspapers, here is opportunity to do good improvements, which benefit many researchers all the way.

All in all whole conference was full of interesting topics and researchers of multiple fields, which shows the vitality of the “digital humanism scene” in Finland, but also in whole of Nordics. There were also many papers of note that related to the National Library of Finland via newspapers or other listed data:

  • Semantic National Biography of Finland  (paper)
  • Digitised newspapers and the geography of the nineteenth-century “lingonberry rush” in Finland. (paper)
  • Sculpting Time: Temporality in the Language of Finnish Socialism, 1895–1917 (paper)
  • Two cases of meaning change in Finnish newspapers, 1820-1910 (paper)
  • Geocoding, Publishing, and Using Historical Places and Old Maps in Linked Data Applications (paper)
  • A long way? Introducing digitized historic newspapers in school, a case study from Finland , which has continued from earlier project. (paper)
  • Local Letters to Newspapers – Digital History Project (paper)

Potentially interesting also for further development were for example, paper about Sentimentatior full title “Sentimentator: Gamifying Fine-grained Sentiment Annotation” (paper), which enables easy creation of learning data of sentences with annotated sentiments with number of predefined sentiment categorization. The talk “The Nordic Tweet Stream: A dynamic real-time monitor corpus of big and rich language data” (paper) utilized social media data and was preparing online tool for access while still keeping in mind the generic open data needs. The recently started Wikidocumentaries project (paper) is a interesting case as it could act as a bridge between local history endeavours and citizen or local scientists.

All in all very thought-provoking conference and it was super exciting that it was in Helsinki, so it was easy to visit by Finnish DH people and naturally from the Nordic countries. Discussions during breaks were lively and gave more details to the background to various  papers and presentations there were.

 

Minihistories workshop at DHN18

As part of the DHN18 program minihistories workshop was held  at the National Library of Finland. Unfortunately due to multiple reason were were quite few, which meant that we could focus more in depth to the similarities (and also differences between participant countries) with regard to access to data.

For example, we heard that e.g. in Iceland all the newspaper material is available freely online. When comparing to Finland the material until 1929 is available online (by special agreement for this year for the 1918-1929)  and anything more recent is available in the legal deposit libraries in six locations in Finland.

In the workshop we also came up with an idea to expand the usage of wikidata in new ways. As institutions have specific procedures how material is got to the collections , wikis can act as a way to capture the local information, e.g. to wikipedia and even if that is not suitable then via on wiki location where the specific interest area is covered. As discussed there seem to be existing evidence that end-users are already collecting this local information either to social media pages, own websites , so in many different locations.

For the library point of view, our workshop came to conclusion that there is actually four generations of library users (to simplify it greatly).

  1. First generation is the one who wants to use the paper originals and visit the library and reading rooms.
  2. Second generation have or are using the microfilm scanners and access the material in that way
  3. Third generation is the one who utilizes the digital materials , combining and manipulating them
  4. Fourth generation is the maybe digihumanist era, when data is utilized in text and data mining, multiple sources combined in own tools.

We actually tried to think for the 5th generation, is it then when all material is interlinked and accessed, utilizing multiple sources and innovative ways to search. The change of users and ways of utilizing the data is also one way illustrating the changing role of library – different usages requires knowledge in data science, cleaning up, fixing up data in order to ensure that there would be complete sets of information. As there were examples in our workshop that even researcher access to the needed information in digital format can be a challenge (material might not be digitized, or it cannot be shared and can only be used on-site and so forth). For library people this means that there is need to think the role between the contents and research – how to stay in contact with researchers and ensure that materials would be used as much as possible and so that information could be combined from multiple sources. For example wikidata has very good potential to combine different sources e.g. via mixn’match tool, which allows anyone to link matching items, based on insight they have.

As a summary each generation will look at the data in their own way, and find new ways to utilize them, so this is something to wait for.

 

Thanks for all participants, and hopefully everyone enjoys their conference onwards!

 

Heldig 2017 Summit

Also Digitalia was presented at the Heldig Summit on 18.10.2017 , where there was 85 presentations and bit over 230 participants from universities and cultural heritage organizations.

“Developing the Digital World Together”

Heldig director, professor Eero Hyvönen opens the summit by explaining Heldig basis and the growth both in personnel and the facebook group. A Digital Humanism forum is also formed for the life-long learning for the researchers, where online learning materials and MOOCs is being developed and if there is short tutorials to be shared they would be interested.

Session 1 was about researhcer use. Professor Hannu Toivonen explains the data science and how the master science master’s programme is focused. There is also Helsinki center for data science, as a multi-displinary field, which is coordinated by the Kumpula (more info at Data Science Msc->”Contact”). University of Helsinki has lots of interesting research like web-scale surveillance of the news media (http://newswebs.cs.helsinki.fi ) or https://blogs.helsinki.fi/methodology , which is generating for eample R-environment for analysing text-based Suomi24 discussion forum data. Also everyone might have already about Citizen mindscapes, which was presented by telling about the unique interests of the researchers working in the collective. The future generation of digital humanists get onwards by learning, where one example is the introduction to open data science , which professor Hyvönen feels are important for DH and UH at large. Also the legal issues were taken presented by the LegalTechLab and  Growing Mind project, which has just got Academy of Finland funding (2018-2023) with regard to digitization of schools. FIN-CLARIN was there to describe its infrastructure for DH mentioning e.g. FIN-CLARIN corpora, 18 GW data in > 650 databases, which can be found via KieliPankki (both the corpora and the tools). The Bank of Finnish terminology in arts and science is also a unique research infrastructure, to be a continuous database for all research done in Finland.

The cultural heritage institutions role

After the 1st break National Library of Finland presented their services Finna (in a way as a metadata aggregator of several cultural heritage institutes), Finto.fi about ontologies and finally digi.kansalliskirjasto.fi with the extensive newspaper collection, which is being used e.g. in Digitalia and Comhis projects. National Archives talked about arkisto.fi/df (and mentioned about a seminar on 24.11.)

Kotus presented its materials via video, which is available online:

Then SKS presents the scholarly open access monographs at https://oa.finlit.fi , to offer open access research books as well as Codices Fennici https://www.codicesfennici.fi  . Elias Lönnrot letters online offers XML, and service as a whole aims for total shareability, so that anyone can use tools developed by the digital humanists, data can be downloaded by collection or as a whole.

On afternoon the rapid fire of presentations continued with CSC and Ministry of Finance presentation, where focus was in building up a common infrastructure, which also researchers could use. The senior researcher Toni Ryynänen from the Ruralia institute presented how the digitized newspapers from their full timeline can give insight on how specific discussions have evolved.

 

The Helsinki University library talk is about linked data, where demo was also available during the evening session. Https://opensubtitles.org was mentioned as a data source, which was used as http://opus.lingfil.uu.se  , to create parallel corpora of having same text available in multiple languages, which in a way also visualizes differences, but also points where different language translations agree. Depart of Modern Languages of UH also showed examples how they had utilized Tensorflow for analyzing datasets, ending with result that speech and DH are a perfect match.

Researcher world

One theme of the summit was also the concern how to make complex world easier for the researchers. Mietta Liennes presented http://chipster.csc.fi and the Mill https://www.kielipankki.fi/support/mylly , which take care of tool environment, and just with the CSC account it is possible to login and access to the resources, so that you can select data, and pick the tool, which can be run and after a while the results appear and can be viewed either in the user interface or downloaded to an excel file or shared to a colleague. Based on the brief run-through on the summit, definitely something a researchers should take a look!

Professor Timo Honkela was also present, talking about various fields, which digital humanities combine. His new book is now in printing and will be available soon, the hope is that the peace machine activities will lead to better lives onwards and even until  2117.

In digital Russia studies from the Aleksanteri Institute talked about Digi-Pravda and various ways digitalisation is visible. Daria Gritsenko also asked to anyone who is interested about Women in Tech, to check out their website at http://www.digitalicons.org (Studies in Russian, Eurasian and Central European New Media). Professor Parvinen told about the mixed reality user laboratory. Next topics talked about networks of different types, talking about Aalto work with family research or social networks – what do the networks tell and why they have formed in such a way. Digital cultural history, Warsampo were also part of the presentation pool.

Besides Digitalia , also Comhis project was mentioned as one of the research cases who use digitized newspapers as source material.

Final thoughts

All in all, it seems that the digital humanism in Finland has a good network of people and let’s hope that there are possibilities to collaborate later on, too , at least when some initial glimpse to each others work has been got. Unique materials, unique methods and also unique ideas,  that will help current research but also work as an start for the next wave of data scientists or so called digihumanists, for whom there are own training programs also forming.

All of the materials presented can be found from the Heldig pages, and even more can be found via publications of each research team. Let’s see maybe next year if the summit reappears, it could beat its record of 85 presentations and aim higher to the even 100, there seem to be so much happening all around.

 

Tallenna

Tallenna

Tallenna

Tallenna

Tallenna