Collections as Data event on 19-20.2.2024

KBR – Royal Library of Belgium and Europeana Foundation created this event to enable sharing so called data space development from across different National Libraries, (G)LAMs and / or researchers.  The two days were full of interesting keynotes, talks, pitches and even couple of more interactive sessions in order to peak to the past, ongoing or future development projects happening in the cultural heritage space.

Dilawar Ali talks about ML and computer vision and how those can help searchability

The presentations panned a wide range of development happening in the national libraries within Europe and UK. The material types were quite versatile, from books, newspapers and even though methods could have differences there were also usual challenges with OCR, layout analysis, and the generic variance of historical data. Then again, all of this variability was also visible in the researcher needs towards the data existing in the national libraries. The shape of the data space started to form at least in the minds of the participants, when we started to talk about how to define data set, and potential generic workflow in creating datasets , which we got opportunity to give feedback on. Then datasheet concept was introduced by Europeana’s Digital Cultural Heritage working group, where idea is that datasheet contains metadata of creation and provenience of the dataset – all the little details, researchers typically can ask when they really start to use some dataset.

We also noticed lots of challenges and tasks to work on.

Open space flip board talking about rights

For example the open space discussion on rights statements, copyrights, how to label data and handle datasets containing both in-copyright and copyright-free materials are something that we need to discuss more and one suggestion was to educate ourselves and others on the needs of the libraries in order to serve the researchers of the current day in a better way.

All in all, very good two days. It gave some new ideas, which could be easily piloted, adapted or experimented in a small scale at least. Workshop organizers will also create a report on the discussions and information gathered, which could act as an action plan for collaborating across data spaces could work better between cultural heritage and open science, e.g. via EOSC, CLARIAH-infrastructures, so that reproducibility is ensured but also the long-term aspects of the “care” and versioning of the datasets.

 

Fin-Clariah meeting on 1.12.2023

National Library of Finland has been one partner in the Fin-Clariah project of 2022-2023 .  Last Friday there was a joint workshop across all working packages, in order to share  news of what is going on and how things have been progessed, when the project is nearing its end. Ovi, jossa lukee: Väinö Linna -sali

The target of the project was to create an infrastructure, some data, tools and documentation for researchers  utilizing Finnish cultural heritage from various sources. Idea was to investigate the flow of data  to high-capability computing environment, for which CSC (IT Centre for science) was crucial core part. However, in order to keep the voice of researchers near, there was also a few research teams within the project, doing actual research now or in future,  with the data or within the project itself.  In the workshop we even talked about researcher inception – researchers researcing research process itself :).

The keynotes were super interesting and related to multiple participants of the session. Extracting image data and using the image contents together with textual contents is a topic that needs to be read bit more. Then the TurkuNLP group presentation of the state of AI and basics of large language models (LLMs) is super important at the current moment. We all are waiting for Poro model to be ready (but even current 50% done can be useful). This enables new ways to utilize AI even within context of a small language (where there  are not even so many family languages that could be used.). About FinGPT (Arxiv). Unfortunately old digitized materials with OCR of varying of quality has not been able to be integrated to the models, however news web sites, newer ebooks and periodicals have been able to be integrated.

 

It was also interesting to hear about the status and learnings of each work package – there will be more of these at the December where the demos will be shown via videos. Some code is already open with instructions how to use the dataset from National Library of Finland:

https://github.com/CSCfi/kielipankki-nlf-harvester/blob/main/docs/README.md

and some additional information about the dataset at the data catalog

https://www.kiwi.fi/display/Datacatalog/Fin-Clariah+dataset+-+Copyright-free+Finnish+newspapers+and+periodicals

 

Tesseract 5 ja fraktuuran tunnistus

Joskus saamme kysymyksiä kuinka fraktuuraa voisi tunnistaa , kun itsellä on kuva tai pdf jostakin wanhasta aineistosta. Tähän liittyen Digitaliassahan tehtiin aiemmin suomi fraktuura malli, jota on nyt tullut nopeasti kokeiltua Tesseract 5 version kanssa ja yllätykseksemme se näytti vielä toimivan vaikka Tesseractin versio on jo päivittynyt.

Tarvittavat ohjelmistot Tesseract, XPDF-tools (jos käytössä pdf ja halutaan siitä png-kuvia).

Ohjelmistot toimivat komentoriviltä, jonka windowsissa saa käyntiin esim. Windows-näppäin ja R ja cmd -komentokenttään.

Komentorivin käynnistys

 

Tesseract:n asennus windows:lle

Tesseractin komentoriviversion saa myös windowsille  Mannheimin yliopiston sivun kautta:

https://github.com/UB-Mannheim/tesseract/wiki

josta paketti:  https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-rc1.20211030.exe

valitse halutut komponentit, esim.  Fraktur

Tesseract Components-ikkuna

Additional language data, valitse tarvittavat kielet, esim.  Finnish,  German Fraktur.

Loput asetukset voivat olla oletuksilla , ja asennuksen pitäisi mennä loppuun onnistuneesti ja ohjelmisto asentuu sijaintiin: C:\Program Files\Tesseract-OCR

tesseract.exe -v
tesseract v5.0.0-rc1.20211030

 

Kansalliskirjaston fi_frak_nlf -mallin asennus

Mene https://digi.kansalliskirjasto.fi/opendata/submit -sivulle, ja valitse paketti

(Digitalia 2017-2019 ) ryhmän alta:

Digitalia (reocr): Tesseract3 Finnish fraktur model [v1](50.6 MB)

Digitalia (reocr): Tesseract3 Finnish fraktur model README [v1](227.7 kB)

Saat ladattavaksesi fi_frak_nlf.traineddata -tiedoston, joka pitää kopioida tesseractin asennussijainnin tessdata-hakemistoon (esim. C:\Program Files\Tesseract-OCR\tessdata)

 

PDF:n muunnos png-kuvatiedostoksi komentoriviltä

Esim. XpdfReader komentorivityökalut

https://www.xpdfreader.com/download.html  , josta tiedosto

https://dl.xpdfreader.com/xpdf-tools-win-4.03.zip   (jonka purkaminen, ja hakemiston kopiointi haluttuun asennuspaikkaan, tässä C:\apps\)

pdf:n sivujen 1 – 8  konvertointi png-tiedostoiksi

C:\apps\xpdf-tools-win-4.03\bin64\pdftopng.exe -f 1 -l 8 nide.pdf sivu

 

 

Tekstintunnistus halutulle tiedostolle

Mitkä kielet / kielimallit ovat käytettävissä, saat näkyviin komennolla:

tesseract.exe --list-langs

$ tesseract.exe –list-langs
List of available languages (7):
eng
fi_frak_nlf
fin
frk
osd
script/Fraktur

Esimerkiksi fi_frak_nlf -kielimallilla tekstitiedoston saa näin:

$ tesseract.exe sivu-000001.png stdout -l fi_frak_nlf > sivu_1_fifraknlf.txt

Tai suomella

$ tesseract.exe sivu-000001.png stdout -l fin > sivu_1_fin.txt

script/Fraktur;

$ tesseract.exe sivu-000001.png stdout -l script/Fraktur > sivu_1_scfraktur.txt

 

Tulosten tekstitiedostoista voi vertailla toimiiko jokin kielimalli toista paremmin suoraan.

 

Käyttäjälähtöisten tutkijapalveluiden kehittämishanke hyödyttää eri käyttäjäryhmiä

Digitaalinen avoin muisti (DAM) -hankkeen tavoitteena on kehittää Kansalliskirjaston digitaalisten aineistojen ja tutkijoiden kohtaamista. Hanke keskittyy digitaalisten aineistojen laajempaan ja monipuolisempaan käyttöön erityisesti digitaalisten ihmistieteiden tutkimuksessa. Hankkeessa suunnitellaan malli käyttäjälähtöisille tutkijapalveluille. Samalla voidaan palvella kaikkia digitaalisten aineistojen, erityisesti digi.kansalliskirjasto.fi -palvelun käyttäjiä.

DAM-hankkeen keväällä 2020 tehdyssä tutkijakyselyssä haluttiin selvittää, millaisia kokemuksia tutkijoilla on Kansalliskirjaston digitaalisista aineistoista ja palveluista. Kyselyssä kysyttiin esimerkiksi aineistojen ja palvelujen tunnettavuutta, digitaalisten aineistojen kehittämiskohteita ja kokemuksia tutkimusyhteistyöstä.

Käytetyin palvelu oli Kansalliskirjaston digitaaliset aineistot, joita he käyttivät eniten omalta kotikoneeltaan digi.kansalliskirjasto.fi -palvelua hyödyntäen. He esittävät jonkin verran kommentteja esimerkiksi palvelun käyttöliittymään ja avoimesti käytettävien aineistojen määrään, mutta enimmäkseen he olivat tyytyväisiä Kansalliskirjaston aineistoihin ja palveluihin. Yhteistyö ja henkilöstön asiantuntevuus sai erityistä kiitosta, mutta yhteistyön ja läpinäkyvyyden toivottiin lisääntyvän.

Syksyllä 2020 tutkijoita myös haastatellaan, jotta kyselyssä saatua ymmärrystä voidaan syventää erityisesti digitaalisten aineistojen tekniseksi kehittämiseksi ja tutkijayhteistyön vahvistamiseksi sekä Kansalliskirjaston digitointipalveluja tuottavan Etelä-Savon alueella että laajemmin koko tutkijayhteisöä palvellen.

DAM-hankkeen taustalla on tutkijapalveluiden kehittäminen tutkijoiden tarpeisiin soveltuviksi erityisesti aineistolähtöistä tutkimusta ja digitaalisia ihmistieteitä ajatellen. Perinteisesti Kansalliskirjaston aineistoja ei mielletä soveltuviksi digitaalisiin ihmistieteisiin, mutta pikkuhiljaa asiaan on tulossa muutos.

Digitaaliset ihmistieteet ovat kasvava tieteenala. Se on useimmiten lähellä tieteen rajojen ylittävää toimintaa, koska siinä tarkastellaan inhimillistä todellisuutta ja ihmisten toimintaa tietokoneavuisteisin menetelmin. Toisille digitaalisten ihmistieteiden harjoittaminen on jo pelkästään digitaalisten aineistojen käyttöä, mutta useimmille digitaaliset ihmistieteet määrittyvät enemmän aineiston käsittelyyn luotujen digitaalisten menetelmien hyödyntämisellä.

Kyselyyn vastanneista noin neljännes oli tehnyt tiedonlouhintaa, vaikka toistaiseksi mahdollisuudet siihen ovat aineistojen kokonaismäärässä melko pieni osa. Kansalliskirjasto tarjoaa jo nyt osan aineistostaan tiedonlouhintaan soveltuvana datana ja datan määrää pyritään kasvattamaan mahdollisuuksien mukaan esimerkiksi uusina datapaketteina ja mahdollisuuksina tarjota tutkijoille lisää mahdollisuuksia tuottaa itse tutkimukseensa sopivia datapaketteja.

Aineistolähtöisille tutkijapalveluille haetaan mallia myös eurooppalaisista library labeista. Labeissa toimijoita henkilöitä haastatellaan. Lisäksi labien julkisilta internetsivuilta havainnoidaan, minkälaisia datapaketteja, työkaluja ja tutkijayhteistyötä labeissa on.

Hanketta rahoittaa EAKR

DAM-hanke on Euroopan aluekehitysrahaston rahoittama hanke, jota toteutetaan yhdessä Kaakkois-Suomen ammattikorkeakoulun (Xamk) kanssa. Hanke käynnistyi syksyllä 2019 ja jatkuu syyskuun 2021 loppuun asti.

 

Lisätietoja hankkeesta ja kyselyn tuloksista

Liisa Näpärä

Suunnittelija

Digitaalinen avoin muisti -hanke