Kati Katajisto: Voyant – kokeilemisen arvoinen DH-työkalu

Digital humanities -työkalut kehittyvät koko ajan, mutta käytännössä niiden soveltaminen tutkimukseen on usein varsin aikaa vievää, sillä harva työkalu soveltuu sellaisenaan tutkimukseen. Useissa tapauksissa vaaditaan koodaustaitoja, jotta tutkimusdata ja työkalu saadaan muokattua tutkimuksen kysymyksenasetteluun soveltuvaksi. Jos aikasi tai mielenkiintosi eivät riitä syvempään perehtymiseen, mutta haluaisit kuitenkin kokeilla jotain uutta tutkimusaineistoosi, niin suosittelen Voyantia.

Voyant on web-pohjainen tekstianalyysi-sovellus, jolla on erittäin helppo päästä alkuun. Mene Voyantin sivulle osoitteeseen https://voyant-tools.org/ ja lisää tekstisi etusivun Add Texts –laatikkoon. Valitse Reveal ja ’dadaa’, edessäsi on Cirruksen muodostama sanapilvi lisäämästäsi aineistosta. Sivun keskellä on Reader, jossa lisäämäsi teksti näkyy kokonaisuudessaan. Valitsemalla sanapilvestä tietyn sanan (klikkaamalla sitä), näet Readerissä ne keltaisella. Sivuston oikeasta yläkulmasta voit valita lisää työkaluja ja oikealla alhaalla taas näkyy sanojen konteksti. Nyt ei kuitenkaan mennä syvemmälle näihin, vaan luodaan katse Cirrukseen.

Cirruksen sanapilvi paljastaa aineistossa kaikkein useimmiten käytetyt sanat, ja sen alapuolella olevassa tekstissä luetellaan lisäksi liittämäsi tekstiaineiston käytetyimmät sanat ja niiden lukumäärät. Jos sanapilvessä on häiritsevän paljon sanoja, joilla ei ole merkitystä analyysin kannalta (kuten esimerkiksi: että, ja, sekä, jos), niin valitse Cirruksen tehtäväpalkista Define options for this tool ja sieltä Edit list. Sen jälkeen lisää listaan, jokaiselle eri riville, sana (stop word), jonka et halua näkyvän sanapilvessä, ja tallenna (Save) ja varmista (Confirm).

Mitä sanapilvi sitten kertoo? Aineistonsa hyvin tuntevalle tutkijalle ei välttämättä mitään uutta, hän saa ennemminkin vain varmistuksen sille, että hän on löytänyt aineistoistaan keskeisimmät asiat. Varsinkin jos tutkimuksen tekstiaineisto on erittäin laaja, on tällainen ns. tarkistus varmastikin useimmille tutkijoille mukava varmistus. Sen sijaan sellaisissa aineistoissa, jotka ovat tutkijalle käytännössä mahdottomia käydä läpi niiden laajuuden vuoksi kuten Hillary Clintonin yli 30 000 sähköpostia (kts. https://www.historians.org/publications-and-directories/perspectives-on-history/summer-2018/digging-through-the-hillary-clinton-email-archive-using-voyant-tools-in-the-classroom), tarjoaa Voyant oivan mahdollisuuden kahlata aineistoa läpi.

Voyant on siis hyvä työkalu, kun tutkija haluaa käydä tekstiaineistoa läpi. Cirruksen avulla onnistuu ns. distant reading, jolloin tutkija voi löytää tietokoneen avulla laajasta aineistosta sanat ja kohdat, johon kohdistaa perinteinen ihmisen suorittama ns. close reading.

FT Kati Katajisto