Tesseract 5 ja fraktuuran tunnistus

Joskus saamme kysymyksiä kuinka fraktuuraa voisi tunnistaa , kun itsellä on kuva tai pdf jostakin wanhasta aineistosta. Tähän liittyen Digitaliassahan tehtiin aiemmin suomi fraktuura malli, jota on nyt tullut nopeasti kokeiltua Tesseract 5 version kanssa ja yllätykseksemme se näytti vielä toimivan vaikka Tesseractin versio on jo päivittynyt.

Tarvittavat ohjelmistot Tesseract, XPDF-tools (jos käytössä pdf ja halutaan siitä png-kuvia).

Ohjelmistot toimivat komentoriviltä, jonka windowsissa saa käyntiin esim. Windows-näppäin ja R ja cmd -komentokenttään.

Komentorivin käynnistys

 

Tesseract:n asennus windows:lle

Tesseractin komentoriviversion saa myös windowsille  Mannheimin yliopiston sivun kautta:

https://github.com/UB-Mannheim/tesseract/wiki

josta paketti:  https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-rc1.20211030.exe

valitse halutut komponentit, esim.  Fraktur

Tesseract Components-ikkuna

Additional language data, valitse tarvittavat kielet, esim.  Finnish,  German Fraktur.

Loput asetukset voivat olla oletuksilla , ja asennuksen pitäisi mennä loppuun onnistuneesti ja ohjelmisto asentuu sijaintiin: C:\Program Files\Tesseract-OCR

tesseract.exe -v
tesseract v5.0.0-rc1.20211030

 

Kansalliskirjaston fi_frak_nlf -mallin asennus

Mene https://digi.kansalliskirjasto.fi/opendata/submit -sivulle, ja valitse paketti

(Digitalia 2017-2019 ) ryhmän alta:

Digitalia (reocr): Tesseract3 Finnish fraktur model [v1](50.6 MB)

Digitalia (reocr): Tesseract3 Finnish fraktur model README [v1](227.7 kB)

Saat ladattavaksesi fi_frak_nlf.traineddata -tiedoston, joka pitää kopioida tesseractin asennussijainnin tessdata-hakemistoon (esim. C:\Program Files\Tesseract-OCR\tessdata)

 

PDF:n muunnos png-kuvatiedostoksi komentoriviltä

Esim. XpdfReader komentorivityökalut

https://www.xpdfreader.com/download.html  , josta tiedosto

https://dl.xpdfreader.com/xpdf-tools-win-4.03.zip   (jonka purkaminen, ja hakemiston kopiointi haluttuun asennuspaikkaan, tässä C:\apps\)

pdf:n sivujen 1 – 8  konvertointi png-tiedostoiksi

C:\apps\xpdf-tools-win-4.03\bin64\pdftopng.exe -f 1 -l 8 nide.pdf sivu

 

 

Tekstintunnistus halutulle tiedostolle

Mitkä kielet / kielimallit ovat käytettävissä, saat näkyviin komennolla:

tesseract.exe --list-langs

$ tesseract.exe –list-langs
List of available languages (7):
eng
fi_frak_nlf
fin
frk
osd
script/Fraktur

Esimerkiksi fi_frak_nlf -kielimallilla tekstitiedoston saa näin:

$ tesseract.exe sivu-000001.png stdout -l fi_frak_nlf > sivu_1_fifraknlf.txt

Tai suomella

$ tesseract.exe sivu-000001.png stdout -l fin > sivu_1_fin.txt

script/Fraktur;

$ tesseract.exe sivu-000001.png stdout -l script/Fraktur > sivu_1_scfraktur.txt

 

Tulosten tekstitiedostoista voi vertailla toimiiko jokin kielimalli toista paremmin suoraan.

 

Käyttäjälähtöisten tutkijapalveluiden kehittämishanke hyödyttää eri käyttäjäryhmiä

Digitaalinen avoin muisti (DAM) -hankkeen tavoitteena on kehittää Kansalliskirjaston digitaalisten aineistojen ja tutkijoiden kohtaamista. Hanke keskittyy digitaalisten aineistojen laajempaan ja monipuolisempaan käyttöön erityisesti digitaalisten ihmistieteiden tutkimuksessa. Hankkeessa suunnitellaan malli käyttäjälähtöisille tutkijapalveluille. Samalla voidaan palvella kaikkia digitaalisten aineistojen, erityisesti digi.kansalliskirjasto.fi -palvelun käyttäjiä.

DAM-hankkeen keväällä 2020 tehdyssä tutkijakyselyssä haluttiin selvittää, millaisia kokemuksia tutkijoilla on Kansalliskirjaston digitaalisista aineistoista ja palveluista. Kyselyssä kysyttiin esimerkiksi aineistojen ja palvelujen tunnettavuutta, digitaalisten aineistojen kehittämiskohteita ja kokemuksia tutkimusyhteistyöstä.

Käytetyin palvelu oli Kansalliskirjaston digitaaliset aineistot, joita he käyttivät eniten omalta kotikoneeltaan digi.kansalliskirjasto.fi -palvelua hyödyntäen. He esittävät jonkin verran kommentteja esimerkiksi palvelun käyttöliittymään ja avoimesti käytettävien aineistojen määrään, mutta enimmäkseen he olivat tyytyväisiä Kansalliskirjaston aineistoihin ja palveluihin. Yhteistyö ja henkilöstön asiantuntevuus sai erityistä kiitosta, mutta yhteistyön ja läpinäkyvyyden toivottiin lisääntyvän.

Syksyllä 2020 tutkijoita myös haastatellaan, jotta kyselyssä saatua ymmärrystä voidaan syventää erityisesti digitaalisten aineistojen tekniseksi kehittämiseksi ja tutkijayhteistyön vahvistamiseksi sekä Kansalliskirjaston digitointipalveluja tuottavan Etelä-Savon alueella että laajemmin koko tutkijayhteisöä palvellen.

DAM-hankkeen taustalla on tutkijapalveluiden kehittäminen tutkijoiden tarpeisiin soveltuviksi erityisesti aineistolähtöistä tutkimusta ja digitaalisia ihmistieteitä ajatellen. Perinteisesti Kansalliskirjaston aineistoja ei mielletä soveltuviksi digitaalisiin ihmistieteisiin, mutta pikkuhiljaa asiaan on tulossa muutos.

Digitaaliset ihmistieteet ovat kasvava tieteenala. Se on useimmiten lähellä tieteen rajojen ylittävää toimintaa, koska siinä tarkastellaan inhimillistä todellisuutta ja ihmisten toimintaa tietokoneavuisteisin menetelmin. Toisille digitaalisten ihmistieteiden harjoittaminen on jo pelkästään digitaalisten aineistojen käyttöä, mutta useimmille digitaaliset ihmistieteet määrittyvät enemmän aineiston käsittelyyn luotujen digitaalisten menetelmien hyödyntämisellä.

Kyselyyn vastanneista noin neljännes oli tehnyt tiedonlouhintaa, vaikka toistaiseksi mahdollisuudet siihen ovat aineistojen kokonaismäärässä melko pieni osa. Kansalliskirjasto tarjoaa jo nyt osan aineistostaan tiedonlouhintaan soveltuvana datana ja datan määrää pyritään kasvattamaan mahdollisuuksien mukaan esimerkiksi uusina datapaketteina ja mahdollisuuksina tarjota tutkijoille lisää mahdollisuuksia tuottaa itse tutkimukseensa sopivia datapaketteja.

Aineistolähtöisille tutkijapalveluille haetaan mallia myös eurooppalaisista library labeista. Labeissa toimijoita henkilöitä haastatellaan. Lisäksi labien julkisilta internetsivuilta havainnoidaan, minkälaisia datapaketteja, työkaluja ja tutkijayhteistyötä labeissa on.

Hanketta rahoittaa EAKR

DAM-hanke on Euroopan aluekehitysrahaston rahoittama hanke, jota toteutetaan yhdessä Kaakkois-Suomen ammattikorkeakoulun (Xamk) kanssa. Hanke käynnistyi syksyllä 2019 ja jatkuu syyskuun 2021 loppuun asti.

 

Lisätietoja hankkeesta ja kyselyn tuloksista

Liisa Näpärä

Suunnittelija

Digitaalinen avoin muisti -hanke

 

 

ScanTent – quick review (part I)

We’ve had ScanTent available for evaluation and experimentation for some time in the DH projects. We wanted to see a) what ScanTent could do (or facilitate) b) how it generally could work in helping digitization in different kinds of materials for/by researchers, c) what kind of mobile camera qualities would be sufficient and d) how the process beyond ScanTent would go onwards.

ScanTent in its pouch

ScanTent in its pouch

Introduction – What is ScanTent?

Scantent is basically as name suggests, it is actually a tiny table-based ‘tent’ (small cloth-covered area) on top of which you can put a mobile phone or a light-weight camera to take pictures of the material within the tent.

Unboxing

As we got one of the early prototypes from the first manufacturing batch, the package contained: a pouch for ScanTent, ScanTent base fabric (black) and cover cloth (white), the support ‘sticks ‘and a battery for the led lights. So it is quite small and light-weight package, that you can easily carry with you.

Setup

There was no leaflet or setup document within the package, but the setup was quite self-evident (with some learning on-the-fly). Sticks go to the corners of the cloth to assembly it to the proper position and then to top part’s camera ‘plate’. Personally, I believe the setup is two-person job, as some hands are required to keep previous sticks in place, while assembling the rest, but anyhow it can be done in few minutes.

It can be done by one person, but caused some noise in the office when some sticks dropped while trying to fix the others to the top part. But after some practice it goes more and more conveniently every time.

After the tent is set up , one can plug in the led lights to the package-included external battery* and you can start the actual scanning.  The led lights are quite light-weight, so be sure that all of them are downwards and not tilted upwards, which can easily happen after the assembly.

ScanTent assembled

ScanTent assembled, battery pack within the tent(*)

 

Quick Experiments of Scanning Different Kinds of Materials

Ephemera and leaflets

Some items we tried with was the ephemera material, which were locally collected during the elections and were easily available. Some concerns in them were the glossiness i.e. there was easily reflections, and varying background colors and fonts.

Books

Second use case was for books. What if there is a exam coming, the study book is the only one in the library and the loan-time is running out, what do you do? Or shortly could one scan a book with help of  ScanTent? This was interesting in a sense that gave an opportunity for experimenting “multishot” or illustration series which the DocScan provides. One thing noticed, that in any bigger book, or if there is a tight binding – the challenge was keeping the book open (there was no support for that). Second thing was also keeping an eye that the image taken stays straight while swapping pages. The mobile that you can put on top of the tent is on a flat surface, which has no ‘holds’ so it can very easily tilt or move a bit out of place.

Papers

One sheet papers were in a way the easiest case, just put a paper to within the ScanTent and take the image. But a normal scanner of any kind can do the same also. So depends on what you have available.

An open book within ScanTent

The support sticks are a quite thin, and would have to consider a bit, before putting an expensive system camera on top. There is no cradle for the camera, this version has only a flat surface and accidentally bumped even mobile phone off its intended location for couple of times. Luckily phone dropped only from top of the tent to the table….

After the image scan

In fact, the real magic happens at the phase after the scanning phase. You can utilize ScanTent purely as a ‘stand’ for a mobile phone and be well off. There are even apps already, which can take the image and do OCR on that on-the-fly.

In ScanTent the image to data phase was done with the DocScan application, that is available for Androids and Apple devices.  You create an account to the Transkribus platform, login to that account via DocScan app, and then choose to send images for further processing to Transkribus server (to explain it shortly).

Phone screen on top of the ScanTent

But more about that in the following post….

 

P.S.  (*) When taking images for this post also realized that had done couple of error(s) in the 2nd assembly, but this is one of the things one learns after more usage.  When assembling ScanTent for the first time, then had to utilize the ScanTent videos online, which gave hints how to do things correctly.

Heldig Summit 2019

Heldig Digital Humanities Summit 2019 was on 7.11.2019. See here for program and slides: https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/heldig-digital-humanities-summit-2019 . The day was full of both research infrastructure people and researchers, so it was good place for both parties to learn about novelties in either side.

Iso kissa vasemmalla ja pikkukissoja rivissä

Tie vapauteen, 01.09.1922, nro 9, s. 9
https://digi.kansalliskirjasto.fi/aikakausi/binding/1360361/articles/3278605?page=9
Kansalliskirjaston digitaaliset aineistot

The keynotes expanded the thinking and told about current latest development. Dr Marieke von Erp presented research and work done with the Dutch newspapers. For example, some interesting work had been done in analysing food recipes of old newspapers and what do tell about the food culture. With this case sample also the quality of digitisation and text recognition errors were also mentioned as things that the researcher should be aware of .

There was also interesting work done with fiction books. A network analysis done for the characters of the book where the ‘-mark in a name can confuse the algorithm, and give even tilted results.

Time Machine – Now!

Tomi Ahoranta from National Archives of Finland presented the Time Machine project. He explained that also National Library and National Museum have joined in to Finnish Time Machine planning team. Now Time Machine concept is being fine-tuned further based on recent user survey and it is still going strong towards the next EU funding period.  The question is that is this our last chance to get digitisation levels up, as the development of the techniques and work itself will take its own time.

 

P.S. We are hiring,so check out the job application here: https://www.helsinki.fi/fi/avoimet-tyopaikat/suunnittelija

 

Posted in dam