Digitalia & Heldig

Digitalia-projektissa tehtyjä ja tulossa olevia asioita esiteltiin Kimmo Kettusen toimesta Heldig-foorumissa 13.4.2018. Heldig-foorumi on Helsingin yliopiston uudehkon keskuksen tapahtumien sarja, jossa esitellään eri tutkijoita ja heidän alojaan ja tällä kertaa pääsimme esittelemään Kansalliskirjaston aineistoja, joita osa tutkijoista olikin jo aiemmin käyttänyt.

Kimmon esityksessä kerrottiin aineistoista yleensä ja OCR-korjausten eduista suhteessa nimien poimintaa, jossa ollaan jo saatu alustavia lupaavia tuloksia. Ensimmäisenä kohdeaineistona onkin Uusi Suometar, joka on sopivan kokoinen aineisto, jolla löytyy jo moninaisia sivutyylejä, mm. palstamääriä sen julkaisuhistorian aikana, mutta myös henkilöitä ja paikkoja Suomen historian eri vaiheista.

Kokeilu pienellä lehtien joukolla

Heldig-foorumissa esiteltiin myös hiukan avointa dataa, Kansalliskirjaston datakatalogistakin, löytyvien http://digi.kansalliskirjasto.fi OAI-PMH ja OpenURL-rajapintojen kautta, jotka, vaikka perinteisiä kirjastorajapintoja ovatkin, soveltuvat myös ohjelmistokehittäjille. Avoin data mahdollistaa erilaisten palvelujen käytön, kuten esimerkiksi http://voyant-tools.org/ , joka mahdollistaa helposti tekstien analysoinnin suoraan selaimessa. Sitä toki jäimme pohtimaan, kuinka suuremmat aineistot parhaiten työkalussa toimisivat, ja työkalun kielivalikoista suomi puuttui vielä, joka vaatii vähän esitöitä, ennen kuin palvelusta saa kaiken irti.

Kolmantena aineistona kävimme myös läpi Verkkoarkistoa, josta näkee yleisessä verkossa tiedot siitä mitä on kerätty ja itse aineiston paikanpäällä vapaakappalekirjastoissa. Keskustelua herätty youtube-aineiston laatu ja valinnat, koska verkkoaineiston määrähän kasvaa tunnetusti koko ajan. Teemakeräykset ovatkin siis tärkeitä tiettyjen tapahtumien tai teemojen keräilyyn. Tutkijoilta tuli myös kiinnostuksen ilmaisuja aineiston hyödyntämiseen tutkimuksessa…

Jos kiinnostaa se kuinka tutkijat aineistoja käyttävät, käy siis katsomassa kevään aikataulua ja mitä kaikkea tutkijat ovat tekemässä.

At DHN18 conference

Digitalia was well represented in the Digital Humanities i Norden conference, which was held during 7-9.3.2018 in Helsinki.

Results and work of Digitalia was presented for example, in a short paper called: “Creating and using ground truth OCR sample data for Finnish historical newspapers and journals” (paper and slides). This paper was one of the few,  which was given the label of distinguished short paper. Also the notification of the ground truth material got some interests in social media, so maybe we will have others who are interested to improve OCRring methods to experiment with the base data. We got also some ideas on how to improve the data packages, which we can probably improve down the line.

Ongoing work was also visible in the poster session via poster, which describe all of the ground breaking work targeted to make next steps with processing the materials easier. The poster was titled: “Research and development efforts on the digitized historical newspaper and journal collection of The National Library of Finland”. Based on the amount of people who were using newspapers or especially Finnish newspapers, here is opportunity to do good improvements, which benefit many researchers all the way.

All in all whole conference was full of interesting topics and researchers of multiple fields, which shows the vitality of the “digital humanism scene” in Finland, but also in whole of Nordics. There were also many papers of note that related to the National Library of Finland via newspapers or other listed data:

  • Semantic National Biography of Finland  (paper)
  • Digitised newspapers and the geography of the nineteenth-century “lingonberry rush” in Finland. (paper)
  • Sculpting Time: Temporality in the Language of Finnish Socialism, 1895–1917 (paper)
  • Two cases of meaning change in Finnish newspapers, 1820-1910 (paper)
  • Geocoding, Publishing, and Using Historical Places and Old Maps in Linked Data Applications (paper)
  • A long way? Introducing digitized historic newspapers in school, a case study from Finland , which has continued from earlier project. (paper)
  • Local Letters to Newspapers – Digital History Project (paper)

Potentially interesting also for further development were for example, paper about Sentimentatior full title “Sentimentator: Gamifying Fine-grained Sentiment Annotation” (paper), which enables easy creation of learning data of sentences with annotated sentiments with number of predefined sentiment categorization. The talk “The Nordic Tweet Stream: A dynamic real-time monitor corpus of big and rich language data” (paper) utilized social media data and was preparing online tool for access while still keeping in mind the generic open data needs. The recently started Wikidocumentaries project (paper) is a interesting case as it could act as a bridge between local history endeavours and citizen or local scientists.

All in all very thought-provoking conference and it was super exciting that it was in Helsinki, so it was easy to visit by Finnish DH people and naturally from the Nordic countries. Discussions during breaks were lively and gave more details to the background to various  papers and presentations there were.

 

Minihistories workshop at DHN18

As part of the DHN18 program minihistories workshop was held  at the National Library of Finland. Unfortunately due to multiple reason were were quite few, which meant that we could focus more in depth to the similarities (and also differences between participant countries) with regard to access to data.

For example, we heard that e.g. in Iceland all the newspaper material is available freely online. When comparing to Finland the material until 1929 is available online (by special agreement for this year for the 1918-1929)  and anything more recent is available in the legal deposit libraries in six locations in Finland.

In the workshop we also came up with an idea to expand the usage of wikidata in new ways. As institutions have specific procedures how material is got to the collections , wikis can act as a way to capture the local information, e.g. to wikipedia and even if that is not suitable then via on wiki location where the specific interest area is covered. As discussed there seem to be existing evidence that end-users are already collecting this local information either to social media pages, own websites , so in many different locations.

For the library point of view, our workshop came to conclusion that there is actually four generations of library users (to simplify it greatly).

  1. First generation is the one who wants to use the paper originals and visit the library and reading rooms.
  2. Second generation have or are using the microfilm scanners and access the material in that way
  3. Third generation is the one who utilizes the digital materials , combining and manipulating them
  4. Fourth generation is the maybe digihumanist era, when data is utilized in text and data mining, multiple sources combined in own tools.

We actually tried to think for the 5th generation, is it then when all material is interlinked and accessed, utilizing multiple sources and innovative ways to search. The change of users and ways of utilizing the data is also one way illustrating the changing role of library – different usages requires knowledge in data science, cleaning up, fixing up data in order to ensure that there would be complete sets of information. As there were examples in our workshop that even researcher access to the needed information in digital format can be a challenge (material might not be digitized, or it cannot be shared and can only be used on-site and so forth). For library people this means that there is need to think the role between the contents and research – how to stay in contact with researchers and ensure that materials would be used as much as possible and so that information could be combined from multiple sources. For example wikidata has very good potential to combine different sources e.g. via mixn’match tool, which allows anyone to link matching items, based on insight they have.

As a summary each generation will look at the data in their own way, and find new ways to utilize them, so this is something to wait for.

 

Thanks for all participants, and hopefully everyone enjoys their conference onwards!

 

Collecting clippings from newspapers (DHN18 workshop)

For the miniature histories workshop, which we are organizing at the DHN18-conference , one crucial, but needed step is also the actual collecting of interesting articles or clipping from a region or place of your interest.

At the http://digi.kansalliskirjasto.fi -service there are digitized newspapers, journals and technical ephemera of Finland, where it is possible to see how things have changed in local area, starting all way back from the year 1771. One way to collect useful information is to have it in a bookmark or a blog post, like e.g. the family researchers in Oulu have made for the area-specific theme sections for a specific newspaper. Even more detailed way is to collect a clipping and mark it with specific keywords of local area. In digi case, ‘clipping’ is the electronic version of desired illustration, article or area of interesting information.

In Miniature histories context, these clippings could act as a way to present these small pieces of information in a more united way and add other information that locals might have from the places near-by. Information, which is known, but might not have ended up until newspapers.  Here is a short guide how to create a clipping – it starts via finding the suitable page after which you can login and create a clipping by marking it from the selected page.

 

So, what would be the thing you would like to collect information? Is there a region that could benefit of starting creating miniature histories for it? If so, please join our ‘miniature histories’ to the DHN18-workshop, where we can also collect clippings and think ways how to utilize this information further.

 

Sanomalehtikuvitusten luokittelusta

Tiivistelmä: TensorFlow:lla voi pienten alkusvalmistelujen jälkeen luokitella myös sanoma- ja aikakauslehtien kuvia. Taustaa

Kuvitusten luokittelua – miksi?

Digitalia-projektissa tavoitteena on myös tutkia hiukan kuinka sanoma- ja aikakauslehtien erilaisia osakohteita, kuten kuvituksia voisi käsitellä ja tehdä helpommaksi löytää. Aiemmin digiin on tehty mahdollisuuksia hakea kuvituksia aineistoihin vuoteen 1920 asti, ja viime vuoden lopulla tätä jatkettiin 1929 asti ja osin pidemmällekin. Kuvitusten haku pohjautuu nyt jälkikäsittelyn työhön, joka viedään tietokantaan ja lisätään hakuindeksiin. Nyt suunnitteilla on löytää keinoja kuinka kuvituksia voisi tehdä paremmin löydettäväksi. Yksi tapa tähän on takastella itse kuva-aluetta tarkemmin ja selvittää kuvan sisältöä, esimerkiksi mikä olisi kuvan pääsisältö. Tätä varten nyt kuva-alueita on poimittu erilleen, jotta olisi mahdollista tehdä kokeiluja kuvien luokittelussa. Ongelma on osittain eri kuin modernien kuvien tai vaikka valokuvien luokittelussa, koska sanomalehti- tai aikakauslehtiaineisto tuo uutta pohdittavaa esimerkiksi kuvan koon, mahdollisen käytettävän kuvan puskurin tai harmaasävytaustan takia. Alun perin pohdimme, että olisi hyvä jos kuvassa olisi pieni ylimääräinen puskuri, joka antaisi hiukan kontekstia kuvaan, mutta näytti, että jotkin palvelut, jotka tekisivät kuvien luokittelua puskuri voi hämätä esimerkiksi aiheuttamalla kaikkiin kuviin aina avainsanan ‘paperi’ tai ‘teksti’.

TensorFlow

Kuvitusten käsittelyyn yksi mahdollinen koneoppimisratkaisu on Googlen kehittämä TensorFlow-alusta, jota päätimme kokeilla sanomalehtiaineistojen kanssa. Loimme opetusaineiston joistakin tyypillisimmistä kuviluokista, joita sanomalehdistä löytyy kuten ihmiset, rakennukset, kulkuvälineet, ja poimimme jokaiseen luokkaan siihen sopivia sanomalehtikuvia eri lehdistä.

Tensorflow analysoi kuvat omalla ohjelmallaan, joka luo sille kyvykkyyden tunnistaa kuvia joita sille on kerrottu:

python retrain.py --bottleneck_dir=./retrain/bottlenecks \
 -model_dir=./retrain --output_graph=retrained_graph.pb \
 --output_labels=./retrain/reretrain_labels.txt \ 
--image_dir ./opetuskuvat --how_many_training_steps=500  \
--summaries_dir=tf_files/training_summaries/"${ARCHITECTURE}

Prosessoinnissa menee hetki, mutta lopputuloksena syntyy tekstitiedosto opetetuista luokista ja ‘verkko’ opetetun aineiston piirteistä. Tensorboard-työkalun avulla voi myös monitoroida kuinka hyvin opetusaineisto voi olettaa toimivan.

Tämän jälkeen voikin jo kokeilla kuinka TensorFlow luokittelusta selviää kohdeaineiston kanssa. Kohdeaineisto valittiin toisesta lehdestä kuin itse opetusaineisto, jotta näkee hiukan mallin yleispätevyyttä.

python classify_image2.py --model= > luokitusdemo.log &

Saat yhden version ym. skriptistä TensorFlown tutoriaaleista  . Oma versiomme tekee hiukan nimeämismuutoksa ja siirtää kuvan halutun luokan mukaiseen alikansioon, josta on helpompi tarkistaa onko luokittelu osunut oikeaan. Opetuskuvien määrän, laadun ja kohdeaineistosta riippuu kuinka hyvin luokittelu onnistuu. Selkeät opetuskuvat, jossa kohde löytyisi eri näkökulmista voi olla yksi tapa jolla lopputuloksesta tulee paras mahdollinen. Kannattaa ehkä ajatella että koneoppiminen on hiukan kuin likinäköinen ihminen – suuret selkeät linjat erottuvat parhaiten, mutta tarkemmat yksityiskohdat vaativat hieman siristelyä – useampia opetuskierroksia tai lisää opetusdataa.

Muistathan rekisteröityä DHN18-konferenssiin konferenssin kotisivulla  ja jos esimerkiksi tällainen  ylläoleva kokeilu kiinnostaa, niin ilmoittaudu tiistain 6.3. Miniature histories -työpajaan, jossa lehtiaineistoja pohdimme. Kiinnostavaa olisi tietää mitkä kuvitusten pääluokat olisi kiinnostavia? Mistä löytyisi hyvää opetusaineistoa jotta voisimme sanoma- ja aikakauslehtien kuvitusten hakuun tehdä uusia mahdollisuuksia? Soveltuisivatko sanomalehtien kuvat joihinkin tutkimuskäyttöihin?  Löydät TensorFlow:n perusasetukseen, joka oman esimerkkimme taustalla myös toimii ohjeita sekä Linuxille että Windowsille, jota voit kokeilla jo etukäteen.

TensorFlow setup for image classification example in Windows

This post aims to setup environment for  ‘TensorFlow for Poets’ case but with slight adaptations for Windows (7) environment. You can find the linux version here.

Tensorflow for Windows

https://www.tensorflow.org/install/install_windows

Anaconda distribution includes data science modules but a minimum of the modules is installed with the miniconda version, which is is used below: https://conda.io/miniconda.html  .

Environment creation within conda

conda create -n tensor2 python=3.6

activate tensor2

pip install tensorflow

Grab the test images

wget http://download.tensorflow.org/example_images/flower_photos.tgz   

tar xfz flower_photos.tgz -C tf_files\

 

Setup the environment for training

set IMAGE_SIZE=224

set ARCHITECTURE="mobilenet_0.50_%IMAGE_SIZE%"

python -m scripts.retrain -h

python -m scripts.retrain   --bottleneck_dir=tf_files/bottlenecks \
  --how_many_training_steps=500   --model_dir=tf_files/models/   \
--summaries_dir=tf_files/training_summaries/"%ARCHITECTURE%" \
  --output_graph=tf_files/retrained_graph.pb  \
 --output_labels=tf_files/retrained_labels.txt  \
 --architecture="%ARCHITECTURE%"   --image_dir=tf_files/flower_photos

Label the test image or image of your own.

python -m  scripts.label_image -h

python -m scripts.label_image     --graph=tf_files/retrained_graph.pb \
      --image=915045_p30.png 


and the results are

Evaluation time (1-image): 0.464s

tulips 0.9960024
dandelion 0.002221214
sunflowers 0.0017093202
roses 5.8004178e-05
daisy 9.087755e-06

So it can be seen that at least with this model water-lilys are not in the suggested options, the style of the image makes TensorFlow to mix them to tulips…

 

Remember to register to the DHN18  , and pick “Miniature histories – Digitized newspapers and cultural heritage assets as source for the local history” as your workshop!

TensorFlow setup for image classification for Linux

“TensorFlow for poets” command line setup  in linux

https://codelabs.developers.google.com/codelabs/tensorflow-for-poets/#0

This setup has been tested e.g. with the University of Helsinki’s virtual environment, from which you can find more here.

 

Create virtual environment

Virtual environment is especially useful if you use virtual desktop – e.g. the tensorboard tries to install itself to common environment, which will not succeed.

virtualenv tepoet

Activate the virtual environment . Note this changes e.g. path so it uses the one under the tepoet/bin -directory

source tepoet/bin/activate

 

TensorFlow details:

(Skipped tensorboard due to above mentioned environment issue, but within virtualenv using tensorboard should be fine).

Install tensorflow and get the scripts from the tensorflow github.

pip install --upgrade tensorflow

git clone https://github.com/googlecodelabs/tensorflow-for-poets-2

cd tensorflow-for-poets-2/

curl http://download.tensorflow.org/example_images/flower_photos.tgz \
    | tar xz -C tf_files

ls tf_files/flower_photos/

Next thing is to to create the model and run the actual classifier to a image used in this post.

export IMAGE_SIZE=224

export ARCHITECTURE="mobilenet_0.50_${IMAGE_SIZE}"

python -m scripts.retrain -h

python -m scripts.retrain   --bottleneck_dir=tf_files/bottlenecks   \
--how_many_training_steps=500   --model_dir=tf_files/models/  \
 --summaries_dir=tf_files/training_summaries/"${ARCHITECTURE}" \
  --output_graph=tf_files/retrained_graph.pb  \
 --output_labels=tf_files/retrained_labels.txt   \
--architecture="${ARCHITECTURE}"   --image_dir=tf_files/flower_photos

python -m  scripts.label_image -h

python -m scripts.label_image     --graph=tf_files/retrained_graph.pb \
     --image=tf_files/flower_photos/daisy/21652746_cc379e0eea_m.jpg

python -m scripts.label_image     --graph=tf_files/retrained_graph.pb\
      --image=tf_files/flower_photos/roses/2414954629_3708a1a04d.jpg

And finally run the classifier against your own image

python -m scripts.label_image     --graph=tf_files/retrained_graph.pb \
      --image=995706_kukka_1905.png

The results should be :

Evaluation time (1-image): 0.501s

roses 0.4427891
dandelion 0.36607185
sunflowers 0.1426634
tulips 0.0484466
daisy 2.9001703e-05

 

Remember to register to the DHN18  , and pick “Miniature histories – Digitized newspapers and cultural heritage assets as source for the local history” as your workshop!

 

Kielipankki

Erilaisten tekstiaineistojen käyttöön tiedoksi Kielipankin Korp-palvelu, jossa voi hakea sisällöistä tietyillä sanoilla ja nähdä sanamuotojen esiintymät ja paikan aineistoissa. Yksinkertaisimmillaan voi valita haluamansa korpukset, jonka jälkeen hakusana ja konkordanssi-näkymään tulee tietoa sanan esiintymisestä.

 

Löydetystä sanasta näkee lehden tiedot josta sana löytyi, tiedot digitointiajankohdasta ja linkki digin puolelle, jos aineisto on käytettävissä.

Jos joissakin hakutuloksissa on eroa suhteessa https://digi.kansalliskirjasto.fi – palveluun, niin syinä voi olla pienet erot aineistoissa – digiin on saatettu tehdä lisäyksiä, poistoja tai  korjauksia joita Korp-palvelusta puuttuu. Lisäksi aineiston käsittelyssä ja hakutoimintojen sisäisessä toteutuksessa on eroa, joten ei tarvitse hämmästyä.

Aineistojen tutkinnassa kannattaa myös tutkia millaisia asioita hakutuloksiin tarttuu. Hakutulos ei välttämättä osu uutiseen vaan se voi osua myös esimerkiksi mainokseen tai ilmoitukseen, joka onkin voinut osua useisiin lehtiin päivä päivältä.

Olemme saaneet jo muutamia kehitysideoita kaavionäkymään, joten jos mielessäsi on jotakin, niin lähetäthän palautetta digin palaute-toiminnon avulla.

 

1918-1929 Finnish newspapers readable for 2018

National Library of Finland has come to agreement with the copyright organization Kopiosto about opening the newspapers and journals, which National Library has digitized, for use for the duration of the year 2018. Read more from the announcement(in Finnish).

Bundle of lion cubs / Source: Joulukukka : lasten joululehti, 01.12.1924, p. 17 https://digi.kansalliskirjasto.fi/aikakausi/binding/1354292?page=17

A hint of the using of the search also with newer materials. If you seek for specific newspaper from specific date, utilize their own search fields:

Free text search is not optimum for a specific newspaper can lead to typos and errors in dates

Instead utilize the separate search fields if you want to target to certain specific newspaper and you even know the date. You can use one or several search options within one search. More options can be found behind the yellow ?-mark in the search page of digi.
Pick date and newspaper if want to target that specific one. Free text search and all of its options are useful if you have specific search idea, but want to see across newspapers (or journals) what is found from it.

So have fun, and share information about the opening to anyone who would like to read about the news, weather, sports, politics or any other topics that the newspapers might have covered back in the date. There might be surprises ahead as things have changed from back then.

+Edit. The news item of Kopiosto with statements from both parties is also now online .

Miniature histories workshop – reserve 6.3.2018 from your calendar

Digitalia’s and OKF’s microhistory project were happy to hear that our workshop concept was accepted to the Digital Humanities i Norden 2018 seminar. The workshop is titled: “Miniature histories – Digitized newspapers and cultural heritage assets as source for the local history” . The workshops are organized before the conference, so this session is on 6.3.2018 in Helsinki. Please reserve your calendar.

Details about the session will be shared at the beginning of next year. Do note that also workshop participants need to register themselves to the seminar.  Things we will can try hands-on, based on participant interest, for example:

  • searching and creating clippings from digi.kansalliskirjasto.fi
  • utilizing page texts and capturing named entities from texts (for example using Finer tool) or tag clouds
  • adding data to WikiMedia with correct attributions
  • utilizing WikiMedia data in other systems (API, queries)

Let me know if you would like to do something specific with the digitized newspapers or if there are local history topics, which you are interested about. All ideas are welcomed – even if we cannot do everything in the workshop, we can work with them later on. We can think about some practical application prototypes that could be of interest for researchers and all.

Happy holidays for all, and see you in next year. 🙂

Mietteitä Joulukuusesta.

Mietteitä Joulukuusesta. Lähde: Joululehti, 01.01.1887, s. 1 http://digi.kansalliskirjasto.fi/aikakausi/binding/1354895/articles/2648601?page=1 Kansalliskirjaston Digitoidut aineistot