Tesseract 5 ja fraktuuran tunnistus

Joskus saamme kysymyksiä kuinka fraktuuraa voisi tunnistaa , kun itsellä on kuva tai pdf jostakin wanhasta aineistosta. Tähän liittyen Digitaliassahan tehtiin aiemmin suomi fraktuura malli, jota on nyt tullut nopeasti kokeiltua Tesseract 5 version kanssa ja yllätykseksemme se näytti vielä toimivan vaikka Tesseractin versio on jo päivittynyt.

Tarvittavat ohjelmistot Tesseract, XPDF-tools (jos käytössä pdf ja halutaan siitä png-kuvia).

Ohjelmistot toimivat komentoriviltä, jonka windowsissa saa käyntiin esim. Windows-näppäin ja R ja cmd -komentokenttään.

Komentorivin käynnistys

 

Tesseract:n asennus windows:lle

Tesseractin komentoriviversion saa myös windowsille  Mannheimin yliopiston sivun kautta:

https://github.com/UB-Mannheim/tesseract/wiki

josta paketti:  https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-rc1.20211030.exe

valitse halutut komponentit, esim.  Fraktur

Tesseract Components-ikkuna

Additional language data, valitse tarvittavat kielet, esim.  Finnish,  German Fraktur.

Loput asetukset voivat olla oletuksilla , ja asennuksen pitäisi mennä loppuun onnistuneesti ja ohjelmisto asentuu sijaintiin: C:\Program Files\Tesseract-OCR

tesseract.exe -v
tesseract v5.0.0-rc1.20211030

 

Kansalliskirjaston fi_frak_nlf -mallin asennus

Mene https://digi.kansalliskirjasto.fi/opendata/submit -sivulle, ja valitse paketti

(Digitalia 2017-2019 ) ryhmän alta:

Digitalia (reocr): Tesseract3 Finnish fraktur model [v1](50.6 MB)

Digitalia (reocr): Tesseract3 Finnish fraktur model README [v1](227.7 kB)

Saat ladattavaksesi fi_frak_nlf.traineddata -tiedoston, joka pitää kopioida tesseractin asennussijainnin tessdata-hakemistoon (esim. C:\Program Files\Tesseract-OCR\tessdata)

 

PDF:n muunnos png-kuvatiedostoksi komentoriviltä

Esim. XpdfReader komentorivityökalut

https://www.xpdfreader.com/download.html  , josta tiedosto

https://dl.xpdfreader.com/xpdf-tools-win-4.03.zip   (jonka purkaminen, ja hakemiston kopiointi haluttuun asennuspaikkaan, tässä C:\apps\)

pdf:n sivujen 1 – 8  konvertointi png-tiedostoiksi

C:\apps\xpdf-tools-win-4.03\bin64\pdftopng.exe -f 1 -l 8 nide.pdf sivu

 

 

Tekstintunnistus halutulle tiedostolle

Mitkä kielet / kielimallit ovat käytettävissä, saat näkyviin komennolla:

tesseract.exe --list-langs

$ tesseract.exe –list-langs
List of available languages (7):
eng
fi_frak_nlf
fin
frk
osd
script/Fraktur

Esimerkiksi fi_frak_nlf -kielimallilla tekstitiedoston saa näin:

$ tesseract.exe sivu-000001.png stdout -l fi_frak_nlf > sivu_1_fifraknlf.txt

Tai suomella

$ tesseract.exe sivu-000001.png stdout -l fin > sivu_1_fin.txt

script/Fraktur;

$ tesseract.exe sivu-000001.png stdout -l script/Fraktur > sivu_1_scfraktur.txt

 

Tulosten tekstitiedostoista voi vertailla toimiiko jokin kielimalli toista paremmin suoraan.