The first WoRMS workshop (@ ISMIR)

20.9.2018 was historical day as then the 1st international workshop on reading music systems was held. From the National Library of Finland there were two participants in order to hear about music recognition and to get new insights on what kind of new methods researchers have come up with machine learning or with optical music recognition (OMR).

The lightweight proceedings of papers can be found from Worms homepage. All of the papers went through a light-weight review in the OpenReview-platform, after which authors could adjust they papers accordingly.

Notes from organizers’ (Jorge Calvo-Zaragoza) opening words about background of the workshop

He mentioned, that despite OMR has been researched a while, but there is still no focused community. The of independent research seems to stay independent even though there are used different approaches, data formats, evaluation criteria and even datasets,  but very few re-uses of previous works.  This is also something that all hackathons in general seem to end up – hackathons always end up with new ideas, so then all the old ideas are left in the sides.

History of WorMS: In 12th IAPR intl workshop on graphics recognition (GREC’17) , a number of IMR people happened to meet. There after some discussions, they came to conclusion that OMR should define itself, and also probably find its proper place in the crux of the different research areas.

So in order to widen the user-base, the workshop was defined to be  about systems that read documents of written music. Not strictly exclusive of OMR, but instead to cover any computational task for which the objects of study are related to written music document fits:

  • omr
  • information extraction
  • keyword spotting

Workshop on Reading music systems

  • The first edition is held as a satellite of ISMIR’18
  • there exists several events about machine learning, which can be applied to document analysis.

Session 1.

Jan Hajič jr. from Charles University had a thought-provoking talk on the intrinsic evaluation of the OMR. Sheet music has many aspects to monitor and there might not be a one common metric to rule them all. For example, one eye-opening example was that there is no good “edit-distance” for music scores.

In a way, many of the things did sound so very similar as the text recognition errors, which is quite familiar field from the post-processing of digitization or which you might have seen when analysing texts of the old Finnish newspapers.

Alexander Pacha from TU Wien aimed to the building of a community of OMR and strived to support reproducible research via coding conventions and just by promoting the idea of sharing datasets and code with appropriate licenses. These OMR datasets can be found here: https://apacha.github.io/OMR-Datasets/ , which should cover at least some state of the art quite well. As a summary he emphasized these rules as a staring point:

“Publish your datasets , strive for compatibility, prefer simple encodings and formats”

 

Session 2: Applications and Interactive Systems

 

  • HISPAMUS: Handwritten Spanish Music Heritage Preservation by Automatic Transcription by José M. Iñesta, Pedro J. Ponce de León, David Rizo, José Oncina, Luisa Micó, Juan Ramón Rico, Carlos Pérez-Sancho, Antonio Pertusa
Interesting software from a group doing pattern recognition and ML who then advanced to OMR. The medieval scores are not easy to understand by modern musicians. The system does layout analysis, symbol detection & recognition.
  • Developing an environment for teaching computers to read music by Gabriel Vigliensoni, Jorge Calvo-Zaragoza, Ichiro Fujinaga
Pixel.js is a web based app to correct the output of image segmentation processes (Saleh et al.)
  • Optical Music Recognition and Human-in-the-loop Computation by Liang Chen, Christopher Raphael

Aims to recognize symbols, chords, beam groups etc. Involving end-user to get to more granular level.

[1] Choi et al. figure 2. Interface of human-interactive OMR system.

Session 3: Technical Solutions

A Starting Point for Handwritten Music Recognition by Arnau Baró, Pau Riba, Alicia Fornés
Music Symbol Detection with Faster R-CNN Using Synthetic Annotations by Kwon-Young Choi, Bertrand Coüasnon, Yann Ricquebourg, Richard Zanibbi Idea was to do symbol recognition and utilize faster R-CNN in that task. SmuFL was used for the music font layout. Also mentioned was DocCreator which was a system developed for creation of ground truth.
DeepScores and Deep Watershed Detection: current state and open issues by Ismail Elezi, Lukas Tuggener, Marcello Pelillo, Thilo Stadelmann The target data used multiple ligthning conditions and multiple different printers for example, to get variance, which can be difficult for software.

and then finally the session 4. about user perspective.

It was interesting to be in a ‘user track’ as also library as such as users as all digitisation is done to support the public and the researchers. But in a way it was very accurate as we would very much like to use existing research, methods and datasets and just find ways how to efficiently integrate them to our own internal workflows.

Digitisation and Digital Library Presentation System – Sheet Music to the Mix Tuula Pääkkönen, Jukka Kervinen, Kimmo Kettunen Our talk to explain initial concept how enrichment workflow could operate with sheet music and how to integrate “locating” of sheet music to the existing search of the contents of the digital materials.
Music Search Engine from Noisy OMR Data by Sanu Pulimootil Achankunju An state-of-the art description how Bavarian State Library has enabling improved search and use of famous German composers.
How can Machine Learning make Optical Music Recognition more relevant for practicing musicians? by Heinz Roggenkemper, Ryan Roggenkemper An eye-opening talk about the need of musicians. The OMR, pitch recognition should be practically perfect to be fully useful.

 

Final thoughts

All in all very good workshop. In the side discussion with some of the participants we got also hints about possible datasets and code to use, so thank you everyone for those. As one interesting topic also the IIIF protocol popped up in the final wrap-up as there was just recently created an AV module for it, which enables the vision that was explained in our talk – having everything integrated, the music sheet, the tracking of played notes and even video of having someone playing that said note. IIIF is turning up to be very potential platform, which makes it possible to connect several libraries materials via one common “pipeline”. Existing digitizations get new push via it.

 

 

References

[1] Choi, K.-Y., Coüasnon, B., Ricquebourg, Yann, & Zanibbi, R. (2018). Music Symbol Detection with Faster R-CNN Using Synthetic Annotations. In Calvo-Zaragoza, Jorge, J. H. jr, & Pacha, Alexander (Eds.), Proceedings of the 1st International Workshop on Reading Music Systems (pp. 9–10). Paris.

ISMIR2018 – tieteellinen ohjelma

ISMIR:n tutoriaalipäivän jälkeen konferenssin tieteellinen ohjelma alkoi. Hyväksymisprosentti konferenssiin oli n. 43% , joka kertoman mukaan oli samaa luokkaa, kuin aiemmissa konfrensseissa. Tämä konferenssi oli 19. kerta kun se järjestettiin ja olipa ainakin yksi musiikin käsittelyn ja erityisesti OMR:n kanssa työskennellyt henkilö ollut paikalla kaikissa konfferensseissa. ISMIR:ssä myös osallistujamaita oli Euroopasta, Aasiasta ja Amerikoista. Osallistujamaista oli myös liki samoilla osuuksilla läpimenneiä esityksiä. Muutama maa, erityisesti Saksan ja Espanjan pari yliopistoa oli tutkimuksen kärjessä sillä niistä oli useampikin esitys, mitä esitysten logoista kerkesi huomaamaan.

Konferenssin rakenne

Kaikki konfferenssipaperit löytyvät verkosta, ja kaikki ovat käyneet tuplasokkokatselmoinnin jossa oli mukana kolme katselmoijaa ja yksi järjestäjien edustaja. Kiinnostavaa oli, että paperit esiteltiin neljän minuutin pikapuheenvuoroissa ja lisäksi samat esitykset olivat julistesessiossa, jossa sitten pystyi kysymään tutkimuksesta suoraan tekijällä. Pikapuheenvuorot lienevätkin yleistymässä, sillä näinhän toimittiin jo viime vuoden Heldig Summitissa. Osallistujat pysyivät hyvin aikataulussa, sillä kello oli kaikilla näkyvissä ja ajan ollessa “pykälässä” puhuja sai koneelliset aplodit, joka oli viimeistään merkki, että oli aika lopettaa.

 

Konferenssin sisällöistä

Tarvitsisi koneoppimista, että saisi tiivistettyä kaiken mitä eri tutkimuksissa oli työn alla. Yleishuomiona voisi ehkä sanoa, että neuroverkkoja käytettiin varmaankin kaikissa, joko luokittelussa tai klusteroinnissa. Toinen huomio jonka voi tehdä oli, että ideana oli manipuloida musiikkia , nuotteja, ääniä eri tavoin ja kylläpä niitä vaihtoehtoja löytyi. Digitoiduista nuoteista tehtiin nuottien tunnistusta (optical music recognition, OMR), jossa oli osittain samoja tuttuja ongelmia kuin tekstintunnistuksessa (OCR), mutta osittain musiikissa ongelmat olivat moninaisemmat sillä tahti ja rytmi, esitystapa, musiikin kokemus olivat muita näkökulmia, joita luotiin. Kuitenkin tuntui, että kirjastoväkeä paikalla oli vain pari yksittäistä, joten kirjastopuolella digitaalinen musiikin käsittely lienee alussa (ainakin tämän konferenssin perusteella). Saksassa oltiin tehty nuottien hakua (s.23) siten, että kysyjä voi antaa tiettyjä nuotteja ja haku etsii kyseisiä kokoelmista ja Englannissa keskiaikaisten nuottien kuvahakua, mutta tämä ei liene vielä päätynyt heillä esitysjärjestelmään asti. Kiinnostavaa oli, että BLAST ja biotieteiden menetelmät joita myös Kansalliskirjaston COMHIS-projektin Turun yliopiston toteuttajapäässä on käytettävänä, tuli myös esille tässä, joten eri puolilla päädytään hiljalleen samoihin tutkimussuuntiin. Samaa lie odotettavissa myös NewsEYE-projektin suunnalta, koska IIIF-rajapinta vilahteli myös muutamassa esityksessä, potentiaalisena ratkaisuna – näimmepä jopa OMR:n gurulta ex tempore-esityksen jossa hän esitteli IIIF-serveriä, joka pystyi juusi havainnollistamaan nuotteja, soittajaa yhtäaikaa samassa verkkojärjestelmässä.

Hetkosen vilahti jo mielessä, että OMR ja musiikintiedeonhaun ongelmat on kaikki jo ratkaistu, mutta tätä toki tutoriaaleissa toistettiin, että tutkimussarkaa vielä on. Aina eri aineistoista voi tulla uusia tutkimusaiheita ja aina tutkijat pyrkivät löytämään aina parempia algoritmeja, joilla aineistoja käsitellä entistä paremmin. Vaikka joitakin järjestelmiä oli, jotka toimivat joillakin saroilla ja osuuksissa, siinä on kuitenkin tekemistä opettaa neuroverkot omalle aineistoille ja löytää malleille parametrit. Aina kuitenkin jäi ihmisille tekemistä vaikka koneistakin on paljon apua.Ja koneetkin vaativat paljon ihmistyötä sekä aineiston seulonnassa kunnollisen opetusaineiston tekemistä varten tahi annotoidun aineistojoukon tekoon.

ISMIR2018/OpenSource and reproducible MIR Research

ORMR was the topic of Sunday’s tutorial . There Brian McFee and Thor Kell went through good coding basics, git, python, CI, tests and flake8 in order to show participants how to make code, which yourself can read after summer holidays, but which would be something that others can pick up.

Tutorial 23.9. 9-12.30

There was quite similar tenet as in the earlier WORMS workshop from the researcher point of view. Utilize version control , document stuff, and explain things. As an avid user of many github repositories and tools shared there both of these talks were important to have – at least if you can influence the newcomers coming to the field, then the future will be brighter or at least more open.  Even if some of the materials would be familiar, do peek it at : http://bit.ly/ossmir  , the material was nicely structured and the pace was nice for the most of the participants. For fast-goers, the teachers reminded of option to go through materials beforehand, so there was something to do while waiting for others. As a handy practical thing, the organizers controlled time spent via two sticky notes: blue : if the checkpoint was completed, and red if there was some issues or questions. With two teachers it worked quite well. Only nag was that they didn’t mention the laptop requirement beforehand, so couple of people got also the pair programming experiment.

But as in one after discussion was told to me – do not just pick up a python module from internet, but do read the code and attempt to understand how it works. In the long run it will pay up as then when the hard times come ahead you have options to tweak system further to the desired direction.

Lehti- ja data-aineistoista meiltä ja muualta

 

Ruotsissa historiallisten aineistojen yleinen saatavuus kasvaa, kun siellä päästään digitoimaan loputkin välin 1734-1906 välin lehdistä.  Projekti laajentaa Ruotsin Kungliga Biblioteketin ja Ruotsin Kansallisarkiston aineistoja myös paikallislehtiin. Digitiointi on ollut tähän asti enemmän suurissa kaupunkien lehdissä, jolloin paikallisten uutislehtien osuus on ollut pienempi. Voikin miettiä tutkimuksia lukiessaan missä jutussa mainittu lehti onkaan julkaistu ja onko vaikka toiselta puolen Suomea olemassa vastaavanlaista tutkimusta. KB:n digitoinnin tekee mahdolliseksi Arcadia tutkimusinstituutin mittava lahjoitus, joka varmasti parantaa aineistojen saatavuutta ja tutkimuskäyttöä Ruotsissa ja ehkä jopa Pohjoismaissakin mittavasti. Suuret korpukset palvelevat tutkimusta ja erilaisia tutkimusaloja monipuolisesti, mahdollistaen keskittymisen joko tiettyyn nimekkeeseen, alueeseen tai jopa kaikkeen aineistoon ja ovat laajuudessaan yleiskäyttöisiä.

Datasettien haku

Uusi “datamaailma” on myös heräämässä, sillä nyt myös Google on lisännyt aiempien data-aineistojen portaalien lisäksi oman datasettien hakupalvelun . Hakupalvelu ei vielä sisällä kaikkea vaan esimerkiksi suomalaista materiaalia etsiessä, lähteeksi mainitaan  European data portal-palvelu, tai esim. CEICData. Onkin kiinnostavaa nähdä löytävätkö eri ground truth aineistot, joita käytetään algoritmien vertailussa ja voisikin epäillä, että  Suomessa  avoindata.fi- tai Etsin-palvelujen datasetit päätyvät aikanaan Googlen palveluun, Googlen tekemien ohjeiden avulla. Datalle löytyy monia säilytyspaikkoja, joten jotakin dataa voi joutua etsimään useampiakin paikkoja, joten palvelulle voi löytyä uskollisia käyttäjiä.

Avoimuudesta

“– voisi julkisin varoin ylläpidetty julkaisuarkisto olla aivan yhtä kelvollinen primäärinen julkaisupaikka kuin tieteellinen lehtikin”

kirjoittaa Heidi Laine tekstissään, jossa katsotaan avoimen julkaisemisen Plan S-raporttia, johon eurooppalaisten tutkimusrahoittajien yhteistyöelin on määritellyt pitkän tähtäimen tavoitteita tieteellisten julkaisujen julkaisemiseksi.  Julkaisuarkisto ei kuitenkaan veisi pois katselmointivaihetta ja esim. vaikka versiohallintaa (Github) voisi käyttää katselmointiin aivan hyvin, ja tuoreena kokemus OpenReview-palvelusta oli miellyttävä, kun artikkeliteksti oli näkyvillä, ja kommentit sai siihen kommentteina, jotka näkyivät kaikille, kuin myös omat vastaukset ja uudet versiot artikkeliehdotuksesta. Tosin toisaalta nyt kentällä on paljon irtopalloja, joten ehkä aluksi hyvä on avoin keskustelu ja ajatusten vaihto jonka myötä voidaan hiljalleen löytää yhteisesti uusia toimintamalleja.

Digitalia & Heldig

Digitalia-projektissa tehtyjä ja tulossa olevia asioita esiteltiin Kimmo Kettusen toimesta Heldig-foorumissa 13.4.2018. Heldig-foorumi on Helsingin yliopiston uudehkon keskuksen tapahtumien sarja, jossa esitellään eri tutkijoita ja heidän alojaan ja tällä kertaa pääsimme esittelemään Kansalliskirjaston aineistoja, joita osa tutkijoista olikin jo aiemmin käyttänyt.

Kimmon esityksessä kerrottiin aineistoista yleensä ja OCR-korjausten eduista suhteessa nimien poimintaa, jossa ollaan jo saatu alustavia lupaavia tuloksia. Ensimmäisenä kohdeaineistona onkin Uusi Suometar, joka on sopivan kokoinen aineisto, jolla löytyy jo moninaisia sivutyylejä, mm. palstamääriä sen julkaisuhistorian aikana, mutta myös henkilöitä ja paikkoja Suomen historian eri vaiheista.

Kokeilu pienellä lehtien joukolla

Heldig-foorumissa esiteltiin myös hiukan avointa dataa, Kansalliskirjaston datakatalogistakin, löytyvien http://digi.kansalliskirjasto.fi OAI-PMH ja OpenURL-rajapintojen kautta, jotka, vaikka perinteisiä kirjastorajapintoja ovatkin, soveltuvat myös ohjelmistokehittäjille. Avoin data mahdollistaa erilaisten palvelujen käytön, kuten esimerkiksi http://voyant-tools.org/ , joka mahdollistaa helposti tekstien analysoinnin suoraan selaimessa. Sitä toki jäimme pohtimaan, kuinka suuremmat aineistot parhaiten työkalussa toimisivat, ja työkalun kielivalikoista suomi puuttui vielä, joka vaatii vähän esitöitä, ennen kuin palvelusta saa kaiken irti.

Kolmantena aineistona kävimme myös läpi Verkkoarkistoa, josta näkee yleisessä verkossa tiedot siitä mitä on kerätty ja itse aineiston paikanpäällä vapaakappalekirjastoissa. Keskustelua herätty youtube-aineiston laatu ja valinnat, koska verkkoaineiston määrähän kasvaa tunnetusti koko ajan. Teemakeräykset ovatkin siis tärkeitä tiettyjen tapahtumien tai teemojen keräilyyn. Tutkijoilta tuli myös kiinnostuksen ilmaisuja aineiston hyödyntämiseen tutkimuksessa…

Jos kiinnostaa se kuinka tutkijat aineistoja käyttävät, käy siis katsomassa kevään aikataulua ja mitä kaikkea tutkijat ovat tekemässä.