MaReTE: Keramiikanpalasista avoimeen egyptolgiseen dataan

Tutkimusprojektini Keramiikanpalasista avoimeen egyptologiseen dataan tavoitteena on edistää muinaisegyptiläisten hieroglyfitekstien digitaalista tutkimusta. Projekti alkoi vuonna 2021 Suomen kulttuurirahaston apurahalla. Vuoden 2022 alusta olen saanut keskittyä projektiin Koneen säätiön kolmivuotisen rahoituksen turvin.

Koska hieroglyfitekstien tekstintunnistukseen ei vielä ole toimivaa menetelmää, tuotan koodattuja hieroglyfitekstejä käsin JSesh nimisellä tekstinkäsittelyohjelmalla. Lisäksi rakennan työkaluja koneluettavien tekstien käsittelyyn ja julkaisemiseen. Yksi työkalu auttaa muuntamaan koodatun tekstin sisältävän binääritiedoston tekstitiedostoksi.

O. Turin N 57458, Deir el-Medinasta, uusi valtakunta (c. 1550-1069 BCE).  Museo Egizio, Torino.

Eräs projektin päätavoitteista on rakentaa työnkulku koodattujen hieroglyfitekstien puoliautomaattiseen translitteroimiseen. Sitä varten olen luonut sanafrekvenssi kielimallit kahdesta saatavilla olevasta tekstikorpuksesta. Kielimallit koostuvat kaikista teksteissä olevista sanamuodoista ja niiden määristä sekä translitteraatioista. Ensimmäinen tehtävä on tekstin jakaminen sanoiksi, sillä hieroglyfitekstit eivät kerro sana- tai lauserajoja. Sitten käytetään kielimalleja sanan translitteroimiseksi. Kaikkia uudessa translitteroitavassa lauseessa olevia sanamuotoja ei varmaankaan löydy kielimallista. Silloin voidaan tutkia osia sanasta ja mitä translitteraatioita niillä on sekä esimerkiksi katsoa mikä niistä on todennäköisin edellisen sanan kanssa.

Egyptologiassa ei ole perinnettä julkaista tutkimusdataa muiden tutkijoiden saataville, saati että sen uusiokäyttöä edistettäisiin julkaisemalla se avoimella lisenssillä. Siksi projektissani tuotetut hieroglyfitekstit julkaistaan avoimesti koneluettavassa muodossa. Myös työkalut tullaan julkaisemaan muiden tutkijoiden käyttöön.

Projektin julkaisut ja muut aktiviteetit

Kaikki julkaisuni ja aktiviteettini Helsingin yliopiston tutkimusportaalissa

Projektin GitHub sivu

YouTube kanavani, jossa joitakin etukäteen nauhoitettuja konferenssiesitelmiä