Joskus saamme kysymyksiä kuinka fraktuuraa voisi tunnistaa , kun itsellä on kuva tai pdf jostakin wanhasta aineistosta. Tähän liittyen Digitaliassahan tehtiin aiemmin suomi fraktuura malli, jota on nyt tullut nopeasti kokeiltua Tesseract 5 version kanssa ja yllätykseksemme se näytti vielä toimivan vaikka Tesseractin versio on jo päivittynyt.
Tarvittavat ohjelmistot Tesseract, XPDF-tools (jos käytössä pdf ja halutaan siitä png-kuvia).
Ohjelmistot toimivat komentoriviltä, jonka windowsissa saa käyntiin esim. Windows-näppäin ja R ja cmd -komentokenttään.
Tesseract:n asennus windows:lle
Tesseractin komentoriviversion saa myös windowsille Mannheimin yliopiston sivun kautta:
https://github.com/UB-Mannheim/tesseract/wiki
josta paketti: https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-rc1.20211030.exe
valitse halutut komponentit, esim. Fraktur
Additional language data, valitse tarvittavat kielet, esim. Finnish, German Fraktur.
Loput asetukset voivat olla oletuksilla , ja asennuksen pitäisi mennä loppuun onnistuneesti ja ohjelmisto asentuu sijaintiin: C:\Program Files\Tesseract-OCR
tesseract.exe -v tesseract v5.0.0-rc1.20211030
Kansalliskirjaston fi_frak_nlf -mallin asennus
Mene https://digi.kansalliskirjasto.fi/opendata/submit -sivulle, ja valitse paketti
(Digitalia 2017-2019 ) ryhmän alta:
Digitalia (reocr): Tesseract3 Finnish fraktur model [v1](50.6 MB)
Digitalia (reocr): Tesseract3 Finnish fraktur model README [v1](227.7 kB)
Saat ladattavaksesi fi_frak_nlf.traineddata -tiedoston, joka pitää kopioida tesseractin asennussijainnin tessdata-hakemistoon (esim. C:\Program Files\Tesseract-OCR\tessdata)
PDF:n muunnos png-kuvatiedostoksi komentoriviltä
Esim. XpdfReader komentorivityökalut
https://www.xpdfreader.com/download.html , josta tiedosto
https://dl.xpdfreader.com/xpdf-tools-win-4.03.zip (jonka purkaminen, ja hakemiston kopiointi haluttuun asennuspaikkaan, tässä C:\apps\)
pdf:n sivujen 1 – 8 konvertointi png-tiedostoiksi
C:\apps\xpdf-tools-win-4.03\bin64\pdftopng.exe -f 1 -l 8 nide.pdf sivu
Tekstintunnistus halutulle tiedostolle
Mitkä kielet / kielimallit ovat käytettävissä, saat näkyviin komennolla:
tesseract.exe --list-langs
$ tesseract.exe –list-langs
List of available languages (7):
eng
fi_frak_nlf
fin
frk
osd
script/Fraktur
Esimerkiksi fi_frak_nlf -kielimallilla tekstitiedoston saa näin:
$ tesseract.exe sivu-000001.png stdout -l fi_frak_nlf > sivu_1_fifraknlf.txt
Tai suomella
$ tesseract.exe sivu-000001.png stdout -l fin > sivu_1_fin.txt
script/Fraktur;
$ tesseract.exe sivu-000001.png stdout -l script/Fraktur > sivu_1_scfraktur.txt
Tulosten tekstitiedostoista voi vertailla toimiiko jokin kielimalli toista paremmin suoraan.