Named entity recognition progresses

One of the tasks in the Digitalia project was to to work with Named Entity Recognition and to see how that information could be extracted from the digitized text and then enriched further. At the moment the interesting step is the text recognition phase is the project has created a novel way to process the XML files in order to improve the OCR quality. This step enhances the opportunities for the FiNER to grab the interesting part of the text out, namely names of the persons and locations, which we then integrate to the digi.nationallibrary.fi eventually.

Our dedicated machine is running hot, and we might be, at least for Finnish material, the record holder of executions of Tesseract software.

Not every page is created equal , so that is why it is hard to estimate the speed of this process, but the race is on. With enough CPU cores anything is possible!

For details of the process, do read the ICDAR 2018 short paper titled “Re-OCR in Action – Using Tesseract to Re-OCR Finnish Fraktur from 19th and Early 20th Century Newspapers and Journals”.

 

2018 käyttäjäkysely ja leikkeistä

Digin käyttäjäkysely oli viime kesällä ja nyt tuloksia on analysoitu, raportoitu ja joitakin toiveita on otettu toteutuslistalle. Yleiskatsaus kyselyyn,  löytyy Tietolinjan 2/2018 jutusta: “Hieno palvelu, mutta sisältöä lisää – Kansalliskirjasto kyseli Digi-palvelun käyttökokemuksia”

Lisäksi erityisesti tutkijakäyttöä pohdittiin Informaatiotutkimuksen päivien 2018 esityksen laajennetussa artikkelissa, joka on vapaasti saatavilla : https://journal.fi/inf/article/view/76067 .

Yleinen suositteluindeksi, jolla lasketaan palvelusta aktiivisesti positiivisesti kertovat miinus he, jotka ovat toisessa ääripäässä, toivat luvuksi 61. Tämä on perusarvo, jota voimme jatkossa käyttää palvelun toimintojen vertailuun, koska ajoittain varmasti tulee toimintoja, jotka löytävät käyttäjänsä ja ajoittain taas jotkin toiminnot jäävät käyttämättä tai ei vain toimi toivotusti.

Leikkeitä, onko heitä?

Yhtenä käytännön mittarin kyselyn lisäksi voisi pitää myös Kansalliskirjaston Digin leiketoimintoa. Ne ovat myös tasaisesti ja vakaasti löyttäneet oman käyttäjäkuntansa. Jo aiemmin on ollut havaittavissa, että tietyillä teemoilla ja jopa käyttäjillä on todella laajat leikevalikoimat. Omasta leikekirjasta saa tällä hetkellä 5000 leikkeen metatiedot ulos, ja jos leikelistaus menee pidemmäksi tällöin kannattaa jakaa leikelistaus vaikka päivämäärien avulla, jotta kaikki leikkeet saa ulos. Digin seuraavassa versiossa myös leikkeet yhdistetään ja leikenäkymä on ylläolevan kuvan mukainen ja siinä voi suoraan jo nähdä leikkeiden määrän. Leiketoiminto avattiin vuoden 2014 uudistuksissa ja nyt vuoden 2019 alussa leikkeitä on jo yli 138.000.  Leikkeitä on myös tehty jo tutkimustarkoituksessa, hyödyntäen niitä tutkimusdatan keräämisessä. Leikkeen linkkiähän voisi käyttää muuallakin, erityisen hyödyllistä linkkaus on tekijänoikeuksista vapaista aineistoista – sopimuksilla tai vapaakappalekirjastoissa tehdyt leikkeet pääsee käyttämään vain samassa (tai vastaavilla käyttöoikeuksilla) olevissa paikoissa. Muista avainsanat, koska yli 100.000 leikkeen joukosta , se auttaa leikkeiden löytymistä. (Tosin toki kirjautumisella, oma leikekirja näyttää kaikki leikkeet, jotka itse on tehnyt tai jotka on lisännyt omaan leikekirjaansa.)

Leikkeen teko

Leikkeen teko toimii kuten ennenkin. Kun etsitty tieto  on löytynyt, voi aloittaa leikkeen teon, kirjautua, lisätä leikkeelle kuvailutiedot ja maalata haluamansa alueen ja lopuksi tallentaa. Leike ilmestyy sekä leikelistaan, että omaan leikekirjaan.

Digitalia-projektissa tehdään muutamia muutoksia, jotka parantavat digin toimintoja ja hakua tarkentamalla sitä. Ensin tehdään näitä parannuksia yhdelle lehdelle pohtien ja arvioiden soveltumista tuotantokäyttöön, pohtien kuinka haku saadaan pidettyä toimivana ja tulokset osuvina jatkossakin.

Aineistoihin viittaaminen

Viittaaminen, lähdeviitteet ovat hyvä tapa löytää käytetty aineisto myöhemminkin. Digi.kansalliskirjasto.fi-palvelussa toivomme, että aineistoihin viitataan käyttäen oman tieteenalan tai alueen peruskäytäntöjä. Tärkeintä on, että joku muu, tai vaikka itse pystyy alkuperäisen aineiston jälkeenpäin löytämään.

Lähdeviite tiettyyn lehteen

Tiettyyn lehteen viittaaminen

Viittaaminen leikkeeseen

Leikkeeseen viittaaminen tapahtuu “-merkistä, leikesivulta. Valitse haluamasi muoto: teksti, BibTex, tai RefWorks, ja kopioi lähteen tiedot haluttuun paikkaan.

RefWorks -muodon kopiointi leikkeestä.

 

Viittaamisen yleisohjeita

Kannattaa tutustua oman oppilaitoksen, organisaation tai yhteisön yleisiin ohjeistuksiin ja noudattaa ensisijaisesti niitä. Lisäksi muutamia materiaaleja aiheesta:

Lisätietoja myös digin useimmin kysytyissä kysymyksissä.

Muista myös tarkistaa, että jos käytät organisaation tai muun nimeä lähdeviittauksessa, että organisaation nimi on oikein. Aina ajoittain palaute yhdelle organisaatiolle meneekin toiselle.

ts

 

24.12. Hyvää joulua

Kiitoksia joulukalenterikokeen seuraamisesta!  Vuodet 1771-1800 on nyt käyty pikaisesti läpi. Ihan ensimmäiset julkaisuvuodet olivatkin pääosin ruotsiksi, joka silloin oli valtakunnan pääkieli.

Uutta vuotta odotellessa, pieneksi joululahjaksi vuoden 2019 kalenteripohja . Voit lisätä siihen haluamasi kuvitukset. Pohja on suomennettu Officen verkkosivuilta löydettyyn versioon.

Hyvää joulua ja uutta vuotta!

Digi uudistuu pian ja tervetuloa kokeilemaan uutta versiota https://digi-testi.kansalliskirjasto.fi – osoitteeseen. Palautetta toivomme Digin palaute-lomakkeella, niin otamme asiat mietintään välipäivien jälkeen.