ISSN:1457-4721

Uusi Suometar on ollut Digitalia-projektissa kohdelehti, josta lähtien olemme rakentaneet uusia ratkaisuja aineistojen parantamiseen ja rikastamiseen. Valitsimme Uusi Suometar-lehden, useastakin syystä johtuen:

  • Lehti on yksi Kansalliskirjaston Digissä, käytetyimmistä lehdistä (kautta aikojen).
  • Lehden aikajana ulottuu vuodesta 1869 aina vuoteen 1918, joten lehti on kokenut kaikenlaista. Esimerkiksi artikkelinpoiminnassa huomattiin, kuinka palstamäärät ovat kasvaneet kahdesta aina yhdeksään ja sitten taas vähentyneet.
  • Lehti on sopivan ikäinen, vanhin aineisto on tekijänoikeuksista vapaata ja voimme käyttää sitä muidenkin tutkimusryhmien kanssa vertailuun.
  • Lehti on sopivan kokoinen, siinä on yli 80.000 sivua, joten aineistomäärä on sopiva kattavuuden kannalta – oletus on että erilaiset erikoistilanteet (eri laatuiset alkuperäisaineiston lajit, sivut joilla on vain kuvia, jne.) tulevat jo tässä sivumäärässä esille.

Nimienpoimintaa varten olemme tehneet tekstintunnistuksen uudestaan kaikille Uuden Suomettaren lehdille. On hyvä varautua siihen, että kunhan nämä uudet sivutiedostot tuodaan digiin, se voi muuttaa hakuosumia nykyisestä, koska lehden indeksoidut sisältötektit päivittyvät paremmiksi.

Lehdestä voi myös digin avoindata-sivulta ladata alkuperäiset ALTOT, mutta myös uudet altot joihin on sovellettu Digitalia-projektissa kehitetty tekstintunnistuksen korjausmenetelmää.  Löydät siitä lisätietoja artikkelista Open Source Tesseract in Re-OCR of Finnish Fraktur from 19 th and Early 20 th Century Newspapers and Journals-Collected Notes on Quality Improvement .