Valmiit kielentutkimuksen aineistot

Kielipankissa on iso määrä tekstimuotoisia kieliaineistoja ja niitä tulee koko ajan lisää. On myös ääntä ja videota.

Aineistoina on niin vanhaa kirjasuomea kuin Suomi24-keskustelupalstaa.

Tekstinä on myös litteraatteja, kuten murretallenteiden litteraatteja sekä myös keskustelupuhetta ja Helsingin puhekielen haastatteluja.

Osa aineistoista on täysin julkisia, toisia pääsee käyttämään, jos on jonkin yliopiston tai korkeakoulun käyttäjätunnus (ACA-merkityt) ja toisiin pitää erikseen hakea käyttölupaa (RES-merkityt).

Aineistot ovat joko ns. ladattavia eli koko aineistokokonaisuuden voi tallentaa omalle koneelle tai sitten ne ovat Korp-käyttöliittymässä, josta tehdään hakuja. Haun tulokset voi sitten tallentaa omalle koneelle.

Täällä on Kielipankkia esittelevä video: https://youtu.be/ydIMtcI1z4w

Korp-käyttöliittymä

Moni Kielipankin suomenkielinen tekstiaineisto on käytettävissä Korp-käyttöliittymän avulla. Korp-liittymä on parhaimmillaan morfologisesti ja syntaktisesti annotoidun aineiston käsittelyssä.

Täältä pääset Korp käyttöliittymään:

https://korp.csc.fi/

Täällä on Korp-käyttöliittymän käyttöön opastava video:

Täällä hiukan edistyneempää käyttöä ja nimenomaan fennistille suunnattua:

https://www.helsinki.fi/fi/unitube/video/bb42c711-da88-4a98-8cb1-f6481086e998

Hakujen tekemistä helpottaa, kun tietää ennalta, miten aineistot on annotoitu.

Kolme tiedostoa kieliopillisista koodeista (annotaatioista), joita voi käyttää korpushakuihin: sanaluokat, sananmuotojen ominaisuudet ja syntaktiset suhteet. Korpissa yleisimmin käytettyjä Turku Dependency Treebank eli TDT-koodeja verrataan koodeihin, joita käytetään Lauseopin arkiston murrekorpuksessa. TDT-analyysi koskee monia kirjoitettuja korpuksia ja yhtä murreaineistoa (SKN).

1. Sanaluokat

2. Sananmuodot (morfologia, morfosyntaksi)

3. Dependenssisuhteet, lauseenjäsenet