Nimiä, nimiä, nimiä

Digitalian Kansalliskirjaston osaprojektissa yhtenä tavoitteena on ollut tutkia kuinka nimiä voisi laajoista lehtiainestoista löytyä. Nimet olisivat tässä yhteydessä henkilönimiä, paikannimiä, ja yhteisönimiä. Nimet olisivat kiinnostavia koska suurin osa hauista kohdistuu nimiin ja niiden avulla voi löytää juttuja omista sukulaisista, aikansa merkkihenkilöistä tai vaikka tarinoita paikallishistoriaan. Tutkimuksen tuloksena digiin asti on saatu uusi kokeellinen työkalu ‘Nimiapuri’, jota voit kokeilla https://digi.kansalliskirjasto.fi/name-search -osoitteessa

Nimiapuri-toiminnon etusivun kuva

Nimiä varten kehitettiin tapa jolla ALTO XML tiedostosta voi paikallistaa nimet ja merkitä ne sinne yhdeksi lisätiedoksi tiettyjen sanojen tai sanayhdistelmien oheen. Tavasta voit lukea lisää tutkimusartikkelista:

Ruokolainen, Teemu Petteri ; Kettunen, Kimmo Tapio. / À la recherche du nom perdu – Searching for Named Entities with Stanford NER in a Finnish Historical Newspaper and Journal Collection. Julkaisun esittämispaikka: IAPR International Workshop on Document Analysis System, Wien, Itävalta.2 Sivumäärä  (Suora linkki)

 

Nimiapuri, Name Acolyte!

Nimihakua parantamaan olemme tehneet Digiin ‘Nimiapuri’ -aputyökalun, johon pääsee haun yhteydestä. Nimiapuri näyttää Uuteen Suomettareen tehtyjen nimienhaun tuloksia ja hausta on mahdollista valita nimimuodot, jotka omaan käyttöön ovat hyödyllisimpiä. Esimerkiksi etsimällä nimihausta Runebergin, voi hakujoukoksi muodostua esimerkkilauseen mukainen. Voikin tavallaan ajatella, että Uusi Suometar toimii oraakkelina kaikkeen aineistoon, sillä läheisyyshaku toimii kaikkiin aineistoihin vaikka niille nimientunnistusta ei ole vielä tehty. Nimiapuri voikin auttaa sekä muistamaan miten läheisyyshaku tehtiinkään, ja sitä myöten löytämään niitä viimeisimpiä harvinaisimpia osumia

 

Huom, huom!

Huomaathan että nimien poimintaa on tehty nyt yhdelle lehdelle, joten aineiston määrä on erittäin rajattu suhteessa kaikkeen aineistoon. Haku kuitenkin osuu kaikkiin lehtiin, joten se  voi kuitenkin tuoda esille uusia löytöjä. Nimien poiminnassa voi olla myös virheitä, joten edes samalta sivulta kaikki nimet eivät välttämättä löydy. Tarkkuus on noin 80%, joka voi kuitenkin vaihdella riippuen esimerkiksi sivun rakenteesta.

Lähetä siis palautetta ja kommentoi jos löydät erikoisia osumia…

Leave a Reply

Your email address will not be published. Required fields are marked *