Kielipankissa on iso määrä tekstimuotoisia kieliaineistoja ja niitä tulee koko ajan lisää. On myös ääntä ja videota.
Aineistoina on niin vanhaa kirjasuomea kuin Suomi24-keskustelupalstaa.
Tekstinä on myös litteraatteja, kuten murretallenteiden litteraatteja sekä myös keskustelupuhetta ja Helsingin puhekielen haastatteluja.
Osa aineistoista on täysin julkisia, toisia pääsee käyttämään, jos on jonkin yliopiston tai korkeakoulun käyttäjätunnus (ACA-merkityt) ja toisiin pitää erikseen hakea käyttölupaa (RES-merkityt).
Aineistot ovat joko ns. ladattavia eli koko aineistokokonaisuuden voi tallentaa omalle koneelle tai sitten ne ovat Korp-käyttöliittymässä, josta tehdään hakuja. Haun tulokset voi sitten tallentaa omalle koneelle.
Täällä on Kielipankkia esittelevä video: https://youtu.be/ydIMtcI1z4w
Korp-käyttöliittymä
Moni Kielipankin suomenkielinen tekstiaineisto on käytettävissä Korp-käyttöliittymän avulla. Korp-liittymä on parhaimmillaan morfologisesti ja syntaktisesti annotoidun aineiston käsittelyssä.
Täältä pääset Korp käyttöliittymään:
https://www.kielipankki.fi/korp/
Täällä on Korp-käyttöliittymän käyttöön opastava video:
Täällä hiukan edistyneempää käyttöä ja nimenomaan fennistille suunnattua:
Osa 1:
https://www.helsinki.fi/fi/unitube/video/0ee3342f-7c8d-47bd-a4e0-fde882463a18
Osa 2:
https://www.helsinki.fi/fi/unitube/video/7c1bc0f4-ebe7-44e1-98f4-414dd3f590f8
Hakujen tekemistä helpottaa, kun tietää ennalta, miten aineistot on annotoitu.
Kolme tiedostoa kieliopillisista koodeista (annotaatioista), joita voi käyttää korpushakuihin: sanaluokat, sananmuotojen ominaisuudet ja syntaktiset suhteet. Korpissa yleisimmin käytettyjä Turku Dependency Treebank eli TDT-koodeja verrataan koodeihin, joita käytetään Lauseopin arkiston murrekorpuksessa. TDT-analyysi koskee monia kirjoitettuja korpuksia ja yhtä murreaineistoa (SKN).
2. Sananmuodot (morfologia, morfosyntaksi)
3. Dependenssisuhteet, lauseenjäsenet