OCR:n korjauksen testiaineistoa

Tekstintunnistus https://digi.kansalliskirjasto.fi – palvelussa pohjautuu ALTO XML tiedostoihin, jotka digitoinnin jälkikäsittelyohjelmisto luo digitoiduista sivukuvista. OCR eli Optical Character Recognition, on menetelmä jolla tekstintunnistusta tehdään. Aina välillä saamme kyselyitä siitä kuinka sivuja tehdään, korjataan ja pääsisikö sivutekstejä  korjaamaan. Alta näet esimerkin kuinka korjaus onnistuisi käsin.

OCR:n korjausta

Erityisesti fraktuurasivut, joita on tehty aiemmilla ohjelmistoversioilla sisältävät virheitä johtuen monimaisista syistä. Ilman automaattista korjausta, käsin korjaaminen menisi näin:

Etsi haluamasi sivu, esim. https://digi.kansalliskirjasto.fi/sanomalehti/binding/431884?page=1&ocr=true ja tallenna sivun oikeasta laidasta ALTO XML-linkistä XML-muotoinen sivu.
XML-tiedostossa on rakenteinen tiedostomuoto, jossa kukin sana löytyy riviltään näin, jossa CONTENT-osio kertoo sanan, tai sanan alun jos kyse on taivutetusta sanasta.

Avaa XML-tiedosto sitten koneellasi jollakin tekstieditorilla kannattaa etsiä editori (esim. Visual Studio Code), joka osaa XML-muodosta korostaa eri osat, niin käsittely helpottuu.

Jos alkuperäisessä XML tiedostossa on rivi näin:

String ID="P1_ST00016" HPOS="1975" VPOS="1102" WIDTH="79" HEIGHT="31" CONTENT="Gräs" WC="0.90" CC="3111"/>

Sen korjaus vaatisi, että saisimme tuon XML tiedoston siten, että CONTENT-kohdassa on sana niin kuin sen pitäisi olla, eli esim.

String ID="P1_ST00016" HPOS="1975" VPOS="1102" WIDTH="79" HEIGHT="31" CONTENT="Eräs" WC="0.90" CC="3111"/>

Muina sääntöinä voisi mainita, että XML-tiedoston pitää vastata lehdessä olevaa kirjoitusasua, esim. w-kirjainten käyttö tulee säilyttää, eli pysytään vanhassa kirjoitusasussa. Ja jos lehdessä on kirjoitusvirhe, se tulisi jättää, jotta aineisto pysyy autenttisena ja oikeana.

Jos tällainen kiinnostaisi, laita viestiä tai kokeile itse. XML:n editointiin on myös oma verkkotyökalunsa, jota voisi jatkokehittää jos tällainen kiinnostaisi, esim. kesähupitöinä mahdollisten sadekelien varalta. OCR-korjauksen testiaineistoksi korjatut XML-tiedostot olisi kullan arvoisia ja lisäksi mahdollisesti jo niitä voisi suoraan tuoda jatkossa digiin näytettäväksi alkuperäisen sijasta ja toimisi testiaineistonakin.

Muita avun tapoja.

Digitalkoot-väki voi osallistua myös testaamalla digin seuraavaa versiota https://digi-testi.kansalliskirjasto.fi -osoitteessa, ja lähettämällä palautetta, jos jokin ei näyttäisi toimivan odotetusti. Lisäksi leikkeiden teosta on hyötyä, koska niiden avulla löytyy kiinnostavia teemoja, joita voi jatkaa eteenpäin. Jos käytät palvelua, niin kerro toki siitä eteenpäin muillekin, niin saamme lisää käyttöä ja siten vaikuttavuutta suomalaiselle kulttuuriperinnölle.

Lisäksi jos haluat liittyä Kansalliskirjaston ystäviin, lisätietoja Kansalliskirjaston ystävätoiminnasta löydät verkkosivuiltamme, https://www.kansalliskirjasto.fi/fi/lahjoita