ISMIR2018 – tieteellinen ohjelma

Posted on 25.9.2018 by TuulaP

ISMIR:n tutoriaalipäivän jälkeen konferenssin tieteellinen ohjelma alkoi. Hyväksymisprosentti konferenssiin oli n. 43% , joka kertoman mukaan oli samaa luokkaa, kuin aiemmissa konfrensseissa. Tämä konferenssi oli 19. kerta kun se järjestettiin ja olipa ainakin yksi musiikin käsittelyn ja erityisesti OMR:n kanssa työskennellyt henkilö ollut paikalla kaikissa konfferensseissa. ISMIR:ssä myös osallistujamaita oli Euroopasta, Aasiasta ja Amerikoista. Osallistujamaista oli myös liki samoilla osuuksilla läpimenneiä esityksiä. Muutama maa, erityisesti Saksan ja Espanjan pari yliopistoa oli tutkimuksen kärjessä sillä niistä oli useampikin esitys, mitä esitysten logoista kerkesi huomaamaan.

Konferenssin rakenne

Kaikki konfferenssipaperit löytyvät verkosta, ja kaikki ovat käyneet tuplasokkokatselmoinnin jossa oli mukana kolme katselmoijaa ja yksi järjestäjien edustaja. Kiinnostavaa oli, että paperit esiteltiin neljän minuutin pikapuheenvuoroissa ja lisäksi samat esitykset olivat julistesessiossa, jossa sitten pystyi kysymään tutkimuksesta suoraan tekijällä. Pikapuheenvuorot lienevätkin yleistymässä, sillä näinhän toimittiin jo viime vuoden Heldig Summitissa. Osallistujat pysyivät hyvin aikataulussa, sillä kello oli kaikilla näkyvissä ja ajan ollessa “pykälässä” puhuja sai koneelliset aplodit, joka oli viimeistään merkki, että oli aika lopettaa.

Konferenssin sisällöistä

Tarvitsisi koneoppimista, että saisi tiivistettyä kaiken mitä eri tutkimuksissa oli työn alla. Yleishuomiona voisi ehkä sanoa, että neuroverkkoja käytettiin varmaankin kaikissa, joko luokittelussa tai klusteroinnissa. Toinen huomio jonka voi tehdä oli, että ideana oli manipuloida musiikkia , nuotteja, ääniä eri tavoin ja kylläpä niitä vaihtoehtoja löytyi. Digitoiduista nuoteista tehtiin nuottien tunnistusta (optical music recognition, OMR), jossa oli osittain samoja tuttuja ongelmia kuin tekstintunnistuksessa (OCR), mutta osittain musiikissa ongelmat olivat moninaisemmat sillä tahti ja rytmi, esitystapa, musiikin kokemus olivat muita näkökulmia, joita luotiin. Kuitenkin tuntui, että kirjastoväkeä paikalla oli vain pari yksittäistä, joten kirjastopuolella digitaalinen musiikin käsittely lienee alussa (ainakin tämän konferenssin perusteella). Saksassa oltiin tehty nuottien hakua (s.23) siten, että kysyjä voi antaa tiettyjä nuotteja ja haku etsii kyseisiä kokoelmista ja Englannissa keskiaikaisten nuottien kuvahakua, mutta tämä ei liene vielä päätynyt heillä esitysjärjestelmään asti. Kiinnostavaa oli, että BLAST ja biotieteiden menetelmät joita myös Kansalliskirjaston COMHIS-projektin Turun yliopiston toteuttajapäässä on käytettävänä, tuli myös esille tässä, joten eri puolilla päädytään hiljalleen samoihin tutkimussuuntiin. Samaa lie odotettavissa myös NewsEYE-projektin suunnalta, koska IIIF-rajapinta vilahteli myös muutamassa esityksessä, potentiaalisena ratkaisuna – näimmepä jopa OMR:n gurulta ex tempore-esityksen jossa hän esitteli IIIF-serveriä, joka pystyi juusi havainnollistamaan nuotteja, soittajaa yhtäaikaa samassa verkkojärjestelmässä.

Hetkosen vilahti jo mielessä, että OMR ja musiikintiedeonhaun ongelmat on kaikki jo ratkaistu, mutta tätä toki tutoriaaleissa toistettiin, että tutkimussarkaa vielä on. Aina eri aineistoista voi tulla uusia tutkimusaiheita ja aina tutkijat pyrkivät löytämään aina parempia algoritmeja, joilla aineistoja käsitellä entistä paremmin. Vaikka joitakin järjestelmiä oli, jotka toimivat joillakin saroilla ja osuuksissa, siinä on kuitenkin tekemistä opettaa neuroverkot omalle aineistoille ja löytää malleille parametrit. Aina kuitenkin jäi ihmisille tekemistä vaikka koneistakin on paljon apua.Ja koneetkin vaativat paljon ihmistyötä sekä aineiston seulonnassa kunnollisen opetusaineiston tekemistä varten tahi annotoidun aineistojoukon tekoon.

OCR:n korjauksen testiaineistoa

Posted on 30.6.2018 by TuulaP

Tekstintunnistus https://digi.kansalliskirjasto.fi – palvelussa pohjautuu ALTO XML tiedostoihin, jotka digitoinnin jälkikäsittelyohjelmisto luo digitoiduista sivukuvista. OCR eli Optical Character Recognition, on menetelmä jolla tekstintunnistusta tehdään. Aina välillä saamme kyselyitä siitä kuinka sivuja tehdään, korjataan ja pääsisikö sivutekstejä korjaamaan. Alta näet esimerkin kuinka korjaus onnistuisi käsin.

OCR:n korjausta

Erityisesti fraktuurasivut, joita on tehty aiemmilla ohjelmistoversioilla sisältävät virheitä johtuen monimaisista syistä. Ilman automaattista korjausta, käsin korjaaminen menisi näin:

Etsi haluamasi sivu, esim. https://digi.kansalliskirjasto.fi/sanomalehti/binding/431884?page=1&ocr=true ja tallenna sivun oikeasta laidasta ALTO XML-linkistä XML-muotoinen sivu.
XML-tiedostossa on rakenteinen tiedostomuoto, jossa kukin sana löytyy riviltään näin, jossa CONTENT-osio kertoo sanan, tai sanan alun jos kyse on taivutetusta sanasta.

Avaa XML-tiedosto sitten koneellasi jollakin tekstieditorilla kannattaa etsiä editori (esim. Visual Studio Code), joka osaa XML-muodosta korostaa eri osat, niin käsittely helpottuu.

Jos alkuperäisessä XML tiedostossa on rivi näin:

String ID="P1_ST00016" HPOS="1975" VPOS="1102" WIDTH="79" HEIGHT="31" CONTENT="Gräs" WC="0.90" CC="3111"/>

Sen korjaus vaatisi, että saisimme tuon XML tiedoston siten, että CONTENT-kohdassa on sana niin kuin sen pitäisi olla, eli esim.

String ID="P1_ST00016" HPOS="1975" VPOS="1102" WIDTH="79" HEIGHT="31" CONTENT="Eräs" WC="0.90" CC="3111"/>

Muina sääntöinä voisi mainita, että XML-tiedoston pitää vastata lehdessä olevaa kirjoitusasua, esim. w-kirjainten käyttö tulee säilyttää, eli pysytään vanhassa kirjoitusasussa. Ja jos lehdessä on kirjoitusvirhe, se tulisi jättää, jotta aineisto pysyy autenttisena ja oikeana.

Jos tällainen kiinnostaisi, laita viestiä tai kokeile itse. XML:n editointiin on myös oma verkkotyökalunsa, jota voisi jatkokehittää jos tällainen kiinnostaisi, esim. kesähupitöinä mahdollisten sadekelien varalta. OCR-korjauksen testiaineistoksi korjatut XML-tiedostot olisi kullan arvoisia ja lisäksi mahdollisesti jo niitä voisi suoraan tuoda jatkossa digiin näytettäväksi alkuperäisen sijasta ja toimisi testiaineistonakin.

Muita avun tapoja.

Digitalkoot-väki voi osallistua myös testaamalla digin seuraavaa versiota https://digi-testi.kansalliskirjasto.fi -osoitteessa, ja lähettämällä palautetta, jos jokin ei näyttäisi toimivan odotetusti. Lisäksi leikkeiden teosta on hyötyä, koska niiden avulla löytyy kiinnostavia teemoja, joita voi jatkaa eteenpäin. Jos käytät palvelua, niin kerro toki siitä eteenpäin muillekin, niin saamme lisää käyttöä ja siten vaikuttavuutta suomalaiselle kulttuuriperinnölle.

Lisäksi jos haluat liittyä Kansalliskirjaston ystäviin, lisätietoja Kansalliskirjaston ystävätoiminnasta löydät verkkosivuiltamme, https://www.kansalliskirjasto.fi/fi/lahjoita

Trial use : British Library Newspapers

Posted on 14.8.2016 by TuulaP

For August, University of Helsinki has opportunity to experiment with British Library Newspapers. From the years 1732-1950, there are five different parts, which cover different areas and newspapers.

You can find the link to the database via Finna. More info about the collection at Gale Cengage. The original news item from the National Library, where there is request to send feedback or comments of the service to the information services of the NLF.

Number of documents containing keyword, example of visualization that can be get from the service

Tallenna

Digitalia

Digitaalisen tiedonhallinan tutkimus ja kehittämiskeskus : Kansalliskirjaston osaprojekti

Category Archives: experiments