Digitalia at summer school of document analysis & recognition (SSDA2018-TC10/TC11)

Digitalia project participated to the #SSDA2018 conference, where aim was to gather up researchers who work with document analysis of various materials, and this time the seminar consisted of roughly 40 people, from all over the world.

Summer school was started with Jean-Marc Ogier, who set the table with interesting examples of past and present in document analysis and how the change in media cause new research fields to appear. From digitized materials to born-digital, from physical signatures to online signatures and so forth, which enable also capturing new information. presented the International Association for Pattern Recognition (IAPR) working groups. There IAPR TC-10 is Technical Committee on Graphics Recognition  and IAPR TC-11 is about Reading Systems. Finland is part of the IAPR via the Pattern Recognition Society of Finland.

There was also an introduction round to the L3i laboratories, where various researchers gave us bit of time and presented their work via demos. We got a glimpse of equipment that was used in the lab, and various research done at the lab.

One demo was about segmentation and text capturing of comics , i.e. recognition of individual panels and then the text and also characters who is speaking in the comic. The material for which it was developed were various online comics and some digitized ones. It was patterns all the way, first detecting contours of the panel, then the characters, and also the speech balloons, which were also then processed in order to get the text from the balloons.

Second demo was about transcribing video, the system picked 1 frame from each second of the given input video, and it then transcribed both the content on the captured image and also the audio. Then with help of search engine it was possible to find certain text just via search.

One demo was done as an experiment to monitor the traffic in the harbor. The system detected the moving ships coming or leaving : it detected the boat from the moving image and thusly enabled creation of statistics, how many boats arrived and how many left. This worked in real-time, highlighting boat in the video feed, but also mapping them to the map of the harbor area, which could be very useful in a dashboard. Second live video feed system recognized faces, and aimed to capture sentiments, for example : surprised, content . There were 6 basic feelings, which the system gave ‘bars’ based on the probability.

Bart Lamiroy from University of Lorain talked about familiar concern “Honest, Reproduciple Reporting of Results is Difficult … an Analysis and some Good Practices” about how to do good research and how to spot it when you see it. There the familiar issues, which software, various modules and how fast things change, make it harder for the next researcher to reproduce the results – there are many tiny details, which the publication might not include and there also the tenet of “publish and perish” can create pressures for the researchers, which make them unable to use enough time to documentation, which could be invaluable for the next reader.

Andreas Fischer from University of Fribourg, Switzerland then took the participants to the structural methods of handwriting analysis. Their research team had worked e.g. with George Washington’s letters from Library of Congress. In the Lab the Diva Services http://divaservices.unifr.ch/data attempted to create a platform where a researcher could give data/methods for other researchers to use, thus easing the amount of software needed to be installed to own machine. Diva Services enable processing remotely via specified APIs, first researcher can upload documents (i.e. page images) to the service and then call API of a method and to get results via that api. Very nifty idea of a system and one more implementation for these analysis systems for researchers. Currently can be used for small experiments as the service is currently powered by one machine at the moment. Anyhow enough so that one participant could use its methods to distinct between different Japanese script characters, which in the end won her the excellence award of the summer school.

Poster session

Poster session was also eye-opening – so different kinds of problems where machine learning was used when possible. There were OCR issues, very fragile materials like palm leaves, script and languages for which there does not even exist unicode fonts. Also team sizes varied, some were alone in their university, but then in one lab there was 25 people doing research. In any case, hearing about research done elsewhere was interesting, and some things need to be followed later on, too.

 

Deep Neural Networks and data

Seiichi Uchida from Kyushu University (Japan) walked us in to the deep neural networks in document analysis and actively promoted the thinking to go beyond 100% accuracy. His slides can be viewed from below:

 

Vincent Poulain-d’Andecy from YOOZ (France) gave the industrial talk with multitude of examples of all kinds of document types and formats we actually live with. For example IAPR’s TC10 and TC11 has a number of datasets, which researchers can use as a baseline to check the capabilities of own algorithm, against given data set , thusly giving a joint baseline and benchmark which can help in evaluating how well a specific algorithm works.

David Doermann from University of Buffalo (USA) talked about the Document Forensics in document analysis, and about the current situation, where images, videos and audio can be created in such a way, that a real thing can be impossible to distinct from a fake. He defined the terminology, and gave various examples from different centuries how forgeries and tamperings have been tried, and on the other hand how they are and were being prevented. A comporting thought anyway was that :

“It only takes one piece of inconsistent evidence to prove something is not authentic”

 

He highlighted also how unique each persons handwriting actually is, as each writer has hard time to change ingrained habits, as he mentioned that letter design, spacing and proportions rarely change, and for untrue cases, there are properties which experts can follow.

Marçal Rusiñol from CVC, Universitat Autònoma de Barcelona,Spain told the details of Large-scale document indexing, going bit deeper how the indexing actually works. He had good points on how to make things work to the end-user, i.e. how to improve human computer interaction, and how to rank documents about semantic similarity for a query which goes bit beyond just the search word given by the user.

Dimosthenis Karatzas from CVC, Universitat Autònoma de Barcelona,Spain then talked about urban world and the scene text understanding – how to detect text from noisy and vibrant environment, which is important as he said that over 50% of urban imaginery contains text in some form.  Turned out that trick is in a way in a context, text has some typical features like alignment and characters, which make them distinct even if the observer would not necessarily know the language in question. Many machine-learning algorithms are suitable for the word and object spotting, but the desire was to get to higher level to the true information spotting. There the idea is that machine could answer questions like “what is the price of a 1 litre of milk” from any shop. For this they had generated simulated 3D traffic environment where the autonomous cars can be immersed to various weather, and traffic simulations to test it and now the idea was to create simulated “supermarket” where before mentioned information spotting could be trained upon.

Jean-Yves Ramel, Lifat, University of Tours (France)  talk was titled “Interactive approaches and techniques for Document Image Analysis” compared the computer vision and the document image analysis problems and solutions, which turned out to have quite a many similarities. He highlighted the service aspect of a tool or algorithm, it would be beneficial to let domain experts to fine-tune the algorithms and define parameters, which are meaningful in certain context. By introducing the user, which in fact is the other researcher, would enable them to do more, in a limited time, with a given dataset. In short, researcher should be part of the defining of services which are meant for them to ensure that the features and data is available as needed.

Jean-Christophe Burie from University of La Rochelle kept then the last talk and a workshop where the idea was to experiment with comics, and their segmentation to the speech bubbles. This was one of the demos of the tour of the L3i laboratory of the university so it was interesting to experiment with it even for a short while. Python, opencv, were in use for the image segmentation, and Tesseract was used for then extracting the text part from the speech balloons in the comics.

 

OCR:n korjauksen testiaineistoa

Tekstintunnistus https://digi.kansalliskirjasto.fi – palvelussa pohjautuu ALTO XML tiedostoihin, jotka digitoinnin jälkikäsittelyohjelmisto luo digitoiduista sivukuvista. OCR eli Optical Character Recognition, on menetelmä jolla tekstintunnistusta tehdään. Aina välillä saamme kyselyitä siitä kuinka sivuja tehdään, korjataan ja pääsisikö sivutekstejä  korjaamaan. Alta näet esimerkin kuinka korjaus onnistuisi käsin.

OCR:n korjausta

Erityisesti fraktuurasivut, joita on tehty aiemmilla ohjelmistoversioilla sisältävät virheitä johtuen monimaisista syistä. Ilman automaattista korjausta, käsin korjaaminen menisi näin:

Etsi haluamasi sivu, esim. https://digi.kansalliskirjasto.fi/sanomalehti/binding/431884?page=1&ocr=true ja tallenna sivun oikeasta laidasta ALTO XML-linkistä XML-muotoinen sivu.
XML-tiedostossa on rakenteinen tiedostomuoto, jossa kukin sana löytyy riviltään näin, jossa CONTENT-osio kertoo sanan, tai sanan alun jos kyse on taivutetusta sanasta.

Avaa XML-tiedosto sitten koneellasi jollakin tekstieditorilla kannattaa etsiä editori (esim. Visual Studio Code), joka osaa XML-muodosta korostaa eri osat, niin käsittely helpottuu.

Jos alkuperäisessä XML tiedostossa on rivi näin:

String ID="P1_ST00016" HPOS="1975" VPOS="1102" WIDTH="79" HEIGHT="31" CONTENT="Gräs" WC="0.90" CC="3111"/>

Sen korjaus vaatisi, että saisimme tuon XML tiedoston siten, että CONTENT-kohdassa on sana niin kuin sen pitäisi olla, eli esim.

String ID="P1_ST00016" HPOS="1975" VPOS="1102" WIDTH="79" HEIGHT="31" CONTENT="Eräs" WC="0.90" CC="3111"/>

Muina sääntöinä voisi mainita, että XML-tiedoston pitää vastata lehdessä olevaa kirjoitusasua, esim. w-kirjainten käyttö tulee säilyttää, eli pysytään vanhassa kirjoitusasussa. Ja jos lehdessä on kirjoitusvirhe, se tulisi jättää, jotta aineisto pysyy autenttisena ja oikeana.

Jos tällainen kiinnostaisi, laita viestiä tai kokeile itse. XML:n editointiin on myös oma verkkotyökalunsa, jota voisi jatkokehittää jos tällainen kiinnostaisi, esim. kesähupitöinä mahdollisten sadekelien varalta. OCR-korjauksen testiaineistoksi korjatut XML-tiedostot olisi kullan arvoisia ja lisäksi mahdollisesti jo niitä voisi suoraan tuoda jatkossa digiin näytettäväksi alkuperäisen sijasta ja toimisi testiaineistonakin.

Muita avun tapoja.

Digitalkoot-väki voi osallistua myös testaamalla digin seuraavaa versiota https://digi-testi.kansalliskirjasto.fi -osoitteessa, ja lähettämällä palautetta, jos jokin ei näyttäisi toimivan odotetusti. Lisäksi leikkeiden teosta on hyötyä, koska niiden avulla löytyy kiinnostavia teemoja, joita voi jatkaa eteenpäin. Jos käytät palvelua, niin kerro toki siitä eteenpäin muillekin, niin saamme lisää käyttöä ja siten vaikuttavuutta suomalaiselle kulttuuriperinnölle.

Lisäksi jos haluat liittyä Kansalliskirjaston ystäviin, lisätietoja Kansalliskirjaston ystävätoiminnasta löydät verkkosivuiltamme, https://www.kansalliskirjasto.fi/fi/lahjoita

 

Poikkea vapaakappalekirjastoon

Perinteisenä kesäkauden muistutuksena, tiedoksi, että Kansalliskirjaston tallettamia erilaisia kulttuuriperintöaineistoja on saatavissa kuudessa yliopistokirjastossa ympäri Suomen. Näissä kirjastoissa, erityisissä kulttuuriperintötyöasemilla on mahdollista lukea, selata ja hakea kaikkea digitaalista aineistoa: lehtiä, aikakauslehtiä, kirjoja ja myös tv- ja radioaineistoa KAVI:n arkistoista.

 

Digitalia-projekti kävi esittäytymässä vapaakappalekirjastojen päivillä 29.5. ja samalla kerrottiin uusista aineistoista ja toiminnoista, joita mm. Digitalia-projektin tutkimuksen myötä on digi.kansalliskirjasto.fi-palveluun toteutettu. Uusina aineistoina voi mainita esimerkiksi kaikkialla auki oleva Rajamme Vartija-lehti, mutta kävimme myös läpi tämän vuoden digitointilistaa Kansalliskirjaston Digitoimme nyt-sivun avulla. Esimerkiksi jos vaihdat digissä hakutulokset ‘Viimeisimmät ensin’ näet listassa ‘Sosialisti’ -lehteä, joten jos haluat uppoutua uuteen aineistoon johon tutkijat eivät vielä ehkä ole tarttuneet, niin nämä “uusvanhat” lehdet ovat hyvä valinta.

 

Aineistoja esiin tutkimuksen avulla

Tänään sananvapauden päivänä on hyvä muistaa myös mitä hyötyjä tutkimuskäytöstä aineistoille tulee. Tutkimus voi löytää aineistoista, erityisesti suurista kokonaisuuksista, uusia tapoja tulkita historiaamme ja tuoda historiallisia aineistoja paremmin esille. Vaikka tutkimuksella on omat lähtökohtansa, tutkimus yleensä tuo aineistoistakin esille kiinnostavia puolia, joita ehkä itse aineistoa koonnutkaan ei välttämättä huomaa.

Helsingin yliopiston digitaalisten ihmistieteiden kurssin projektityönä on ollut tapana järjestää hackathon, jossa onkin tietojenkäsittelytieteen ja humanististen ja muiden opiskelijoiden yhteistyönä luotukin kiinnostavia kokeiluja ja saatu väitöskirjoja alkuun.

Eräänä vuonna tutkittiin sosialismin tuloa Suomeen, jossa tehtiin kiinnostavia visualisointia sosialistisesti suuntautuneiden lehtien termistöstä suhteessa kaikkiin lehtiin. Tämän ryhmän tuotos sai sen verran huomiotta, että pääsi myös vuoden 2015 Open Finland Challengen finalistiksi

Termin toistuvuuden aikajana – sosialistiset lehdet

DHH16:sta sanomalehtiin löytyi taas kiinnostuneiden ryhmä ja tällöin tutkittiin vuosisadan alun siirtolaisuutta Suomesta Amerikkaan ja verrattiin tätä siirtolaisuuden tilastoihin ja aiempaan tutkimukseen, tutkien sekä artikkeleita että mainoksia.

Sanomalehtiryhmän työn otos DHH16

Vuoden 2017 DHH hackathonissa sanomalehdistä tutki kuinka aineistoista voisi tunnistaa runoutta, jotka olivat 1900-luvun alun sanomalehti- ja aikakauslehtiaineistoissa yleistä, mutta joita ei ole erikseen aineistosta poimittu. Apuna toimi mm. artikkelihakemisto, jossa joitakin runoja oli jo listattuna, jota käytettiin opetusaineistona muiden runojen löytämiseksi.

 

Tämän vuoden hackathon DHH18 on jo suunnitteilla ,joten on jälleen kiinnostavaa nähdä mistä aiheista ja aineistoista osallistujat kiinnostuvat. Ylemmistä esimerkeistä löytää hieman enemmän tietoa DHH15 , DHH16 ja DHH17-blogauksista, joista löytyy myös linkit hackathonin aikana kehitettyihin koodeihin.

Antaisitko sinä aineistojasi louhittavaksi hackathoniin? Mitä aineistoa toivoisit?

 

Paikallisoppaita opastamassa

Tutkijoiden lisäksi myös paikallisesta historiasta kiinnostuneet ja siitä eteenpäin kertovat ovat kiinnostuneita digitoiduista aineistoista ja käyttöä olisi lisätarinoille tutuilta paikoilta. Tämän takia Digitalia-projektin puitteissa käytiin pyynnöstä esittelemässä https://digi.kansalliskirjasto.fi -palvelua Mikkelin oppaille, jotka järjestävät Mikkelissä ja lähialueilla kierroksia tarvitsijoille.

Haku nimelläKävimme läpi Digin perustoimintoja ja sitten unohduimmekin hakuun, koska oppailta löytyikin heti hakuideoita paikallisista merkkihahmoista, joista unohduimme etsimään lisätietoja. Fraasihaku, eli nimen tai muun sanaparin laittaminen lainausmerkkien sisään on tässä se helpoin tapa päästä alkuun. Hakuehto

"Ernst Lampen"

vie hakutuloksiin kuten ylläoleva kuva näyttää.

Jos tuntuu , että tarvitsee hiukan enemmän hakuehtoja, tällöin läheisyyshaku voisi olla kelpo valinta. Läheisyyshaussa tiettyjä sanoja etsitään annetun sanaetäisyyden päästä toisistaan, esimerkiksi

"maanviljelijä Virtanen"~20

josta välttämättä ei voi olla aivan varma, missä järjestyksessä sanat ovat etsisi näitä kahta sanaa maksimissaan 20 sanan etäisyydeltä toisistaan – jos näin on , on aika suuri todennäköisyys että ne löytyvät samasta artikkelista.

Henkilöjen nimien haussa tosin kaimoja löytyy usein paljon, joten on hyvä kun hakijalla on tietoa henkilöstä muutoinkin, jolloin hakua voi myös rajata vaikka lehden ilmestymispaikan mukaan tai päivämäärällä jolloin jotakin henkilön elämäntapahtumia on sattunut.

P.S. Digistä löytyy nyt pieniä päivityksiä eri puolille. Tervetuloa kokeilemaan!

Digitalia & Heldig

Digitalia-projektissa tehtyjä ja tulossa olevia asioita esiteltiin Kimmo Kettusen toimesta Heldig-foorumissa 13.4.2018. Heldig-foorumi on Helsingin yliopiston uudehkon keskuksen tapahtumien sarja, jossa esitellään eri tutkijoita ja heidän alojaan ja tällä kertaa pääsimme esittelemään Kansalliskirjaston aineistoja, joita osa tutkijoista olikin jo aiemmin käyttänyt.

Kimmon esityksessä kerrottiin aineistoista yleensä ja OCR-korjausten eduista suhteessa nimien poimintaa, jossa ollaan jo saatu alustavia lupaavia tuloksia. Ensimmäisenä kohdeaineistona onkin Uusi Suometar, joka on sopivan kokoinen aineisto, jolla löytyy jo moninaisia sivutyylejä, mm. palstamääriä sen julkaisuhistorian aikana, mutta myös henkilöitä ja paikkoja Suomen historian eri vaiheista.

Kokeilu pienellä lehtien joukolla

Heldig-foorumissa esiteltiin myös hiukan avointa dataa, Kansalliskirjaston datakatalogistakin, löytyvien http://digi.kansalliskirjasto.fi OAI-PMH ja OpenURL-rajapintojen kautta, jotka, vaikka perinteisiä kirjastorajapintoja ovatkin, soveltuvat myös ohjelmistokehittäjille. Avoin data mahdollistaa erilaisten palvelujen käytön, kuten esimerkiksi http://voyant-tools.org/ , joka mahdollistaa helposti tekstien analysoinnin suoraan selaimessa. Sitä toki jäimme pohtimaan, kuinka suuremmat aineistot parhaiten työkalussa toimisivat, ja työkalun kielivalikoista suomi puuttui vielä, joka vaatii vähän esitöitä, ennen kuin palvelusta saa kaiken irti.

Kolmantena aineistona kävimme myös läpi Verkkoarkistoa, josta näkee yleisessä verkossa tiedot siitä mitä on kerätty ja itse aineiston paikanpäällä vapaakappalekirjastoissa. Keskustelua herätty youtube-aineiston laatu ja valinnat, koska verkkoaineiston määrähän kasvaa tunnetusti koko ajan. Teemakeräykset ovatkin siis tärkeitä tiettyjen tapahtumien tai teemojen keräilyyn. Tutkijoilta tuli myös kiinnostuksen ilmaisuja aineiston hyödyntämiseen tutkimuksessa…

Jos kiinnostaa se kuinka tutkijat aineistoja käyttävät, käy siis katsomassa kevään aikataulua ja mitä kaikkea tutkijat ovat tekemässä.

At DHN18 conference

Digitalia was well represented in the Digital Humanities i Norden conference, which was held during 7-9.3.2018 in Helsinki.

Results and work of Digitalia was presented for example, in a short paper called: “Creating and using ground truth OCR sample data for Finnish historical newspapers and journals” (paper and slides). This paper was one of the few,  which was given the label of distinguished short paper. Also the notification of the ground truth material got some interests in social media, so maybe we will have others who are interested to improve OCRring methods to experiment with the base data. We got also some ideas on how to improve the data packages, which we can probably improve down the line.

Ongoing work was also visible in the poster session via poster, which describe all of the ground breaking work targeted to make next steps with processing the materials easier. The poster was titled: “Research and development efforts on the digitized historical newspaper and journal collection of The National Library of Finland”. Based on the amount of people who were using newspapers or especially Finnish newspapers, here is opportunity to do good improvements, which benefit many researchers all the way.

All in all whole conference was full of interesting topics and researchers of multiple fields, which shows the vitality of the “digital humanism scene” in Finland, but also in whole of Nordics. There were also many papers of note that related to the National Library of Finland via newspapers or other listed data:

  • Semantic National Biography of Finland  (paper)
  • Digitised newspapers and the geography of the nineteenth-century “lingonberry rush” in Finland. (paper)
  • Sculpting Time: Temporality in the Language of Finnish Socialism, 1895–1917 (paper)
  • Two cases of meaning change in Finnish newspapers, 1820-1910 (paper)
  • Geocoding, Publishing, and Using Historical Places and Old Maps in Linked Data Applications (paper)
  • A long way? Introducing digitized historic newspapers in school, a case study from Finland , which has continued from earlier project. (paper)
  • Local Letters to Newspapers – Digital History Project (paper)

Potentially interesting also for further development were for example, paper about Sentimentatior full title “Sentimentator: Gamifying Fine-grained Sentiment Annotation” (paper), which enables easy creation of learning data of sentences with annotated sentiments with number of predefined sentiment categorization. The talk “The Nordic Tweet Stream: A dynamic real-time monitor corpus of big and rich language data” (paper) utilized social media data and was preparing online tool for access while still keeping in mind the generic open data needs. The recently started Wikidocumentaries project (paper) is a interesting case as it could act as a bridge between local history endeavours and citizen or local scientists.

All in all very thought-provoking conference and it was super exciting that it was in Helsinki, so it was easy to visit by Finnish DH people and naturally from the Nordic countries. Discussions during breaks were lively and gave more details to the background to various  papers and presentations there were.

 

Minihistories workshop at DHN18

As part of the DHN18 program minihistories workshop was held  at the National Library of Finland. Unfortunately due to multiple reason were were quite few, which meant that we could focus more in depth to the similarities (and also differences between participant countries) with regard to access to data.

For example, we heard that e.g. in Iceland all the newspaper material is available freely online. When comparing to Finland the material until 1929 is available online (by special agreement for this year for the 1918-1929)  and anything more recent is available in the legal deposit libraries in six locations in Finland.

In the workshop we also came up with an idea to expand the usage of wikidata in new ways. As institutions have specific procedures how material is got to the collections , wikis can act as a way to capture the local information, e.g. to wikipedia and even if that is not suitable then via on wiki location where the specific interest area is covered. As discussed there seem to be existing evidence that end-users are already collecting this local information either to social media pages, own websites , so in many different locations.

For the library point of view, our workshop came to conclusion that there is actually four generations of library users (to simplify it greatly).

  1. First generation is the one who wants to use the paper originals and visit the library and reading rooms.
  2. Second generation have or are using the microfilm scanners and access the material in that way
  3. Third generation is the one who utilizes the digital materials , combining and manipulating them
  4. Fourth generation is the maybe digihumanist era, when data is utilized in text and data mining, multiple sources combined in own tools.

We actually tried to think for the 5th generation, is it then when all material is interlinked and accessed, utilizing multiple sources and innovative ways to search. The change of users and ways of utilizing the data is also one way illustrating the changing role of library – different usages requires knowledge in data science, cleaning up, fixing up data in order to ensure that there would be complete sets of information. As there were examples in our workshop that even researcher access to the needed information in digital format can be a challenge (material might not be digitized, or it cannot be shared and can only be used on-site and so forth). For library people this means that there is need to think the role between the contents and research – how to stay in contact with researchers and ensure that materials would be used as much as possible and so that information could be combined from multiple sources. For example wikidata has very good potential to combine different sources e.g. via mixn’match tool, which allows anyone to link matching items, based on insight they have.

As a summary each generation will look at the data in their own way, and find new ways to utilize them, so this is something to wait for.

 

Thanks for all participants, and hopefully everyone enjoys their conference onwards!

 

Collecting clippings from newspapers (DHN18 workshop)

For the miniature histories workshop, which we are organizing at the DHN18-conference , one crucial, but needed step is also the actual collecting of interesting articles or clipping from a region or place of your interest.

At the http://digi.kansalliskirjasto.fi -service there are digitized newspapers, journals and technical ephemera of Finland, where it is possible to see how things have changed in local area, starting all way back from the year 1771. One way to collect useful information is to have it in a bookmark or a blog post, like e.g. the family researchers in Oulu have made for the area-specific theme sections for a specific newspaper. Even more detailed way is to collect a clipping and mark it with specific keywords of local area. In digi case, ‘clipping’ is the electronic version of desired illustration, article or area of interesting information.

In Miniature histories context, these clippings could act as a way to present these small pieces of information in a more united way and add other information that locals might have from the places near-by. Information, which is known, but might not have ended up until newspapers.  Here is a short guide how to create a clipping – it starts via finding the suitable page after which you can login and create a clipping by marking it from the selected page.

 

So, what would be the thing you would like to collect information? Is there a region that could benefit of starting creating miniature histories for it? If so, please join our ‘miniature histories’ to the DHN18-workshop, where we can also collect clippings and think ways how to utilize this information further.