Keelekorpus

Korpuseks nimetatakse lingvistikas valitud, digitaliseeritud ja teatud reeglite järgi töödeldud tekstide kogumit. Korpusi kasutatakse keele uurimise alusena statistilises analüüsis, statistiliste hüpoteeside kontrollimiseks ja keelereeglite kindlakstegemiseks.

Korpus võib sisaldada ühe keele (ühekeelne korpus) või mitme keele (mitmekeeline korpus) tekste. Mitmekeelelised korpused, mis olid loodud keelte erinevate võrdlemiseks, nimetatakse paralleelseteks korpusteks.

Korpuste tähtsuse tõstmiseks uuringute jaoks kasutatakse märgendamist (annotatsiooni)^[1], sest märgendamata tekstikogude (tekstoteekide) rakendamisvõimalused on piiratud. Analüüsitava materjali maht on tavaliselt suur ja tasakaalustatud kujul on rohkem võimalusi objektiivsete uurimistulemuste saavutamiseks.

Eristatakse mitu erinevat märgendamise tehnikat^[2]:

Tehniline - eraldatakse tekstiosad: pealkirjad, laused, lõigud, fraasid mõnel juhtudel nähtused, mis võrreldes tavaliste sõnadega võivad käituda väga erinevalt (lühendid, numbrid).
Ortograafiline – määratakse kindlaks mõne märgi funktsioon. Näitena võib tuua punkti funktsioon (lause lõpus, lühendites), suurtähe funktsioon (pärisnimi, lause algus, suurtest tähtedest koosnev lühend).
Semantiline – märgendatakse semantilisi suhteid või tähenduslikku kuuluvust.
Diskursuslik – lause tasandist kõrgemate nähtuste märgendamine.
Morfoloogiline – märgendatakse iga sõna sõnaliik, algvorm ja info grammatiliste kategooriate kohta.
Süntaktiline – igale sõnale lauses on lisatud märgend tema funktsiooni kohta.

Kõnekorpustes kasutatakse lisaks prosoodilist ja foneetilist märgendamist. Prosoodiline on vajalik rõhu, intonatsiooni, pauside eristamiseks, foneetiline aga suulise kõne häälduse märkimiseks.

Kõige levinumad maailmas on morfoloogiline ja süntaktiline märgendamine. Tüüpiliselt on süntaktiliselt märgendatud korpused ka morfoloogiliselt märgendatud.

Märgendamine algab teksti jagamisest lõikudeks ja lauseteks (või mingiteks teisteks üksusteks). Seda tehakse tavaliselt täisautomaatselt, kuid märgendada saab ka käsitsi (arvutipoolse interaktiivse abiga) või kombineerides neid kahte meetodit^[3].

Ajalugu

Eesti kõige vanim kirjakeele korpus ulatub 1889. aastasse ja selle uurimisperiood annab võimaluse jälgida eesti keele arengut umbes 650 aasta vältel.

Edasi saab korpuste ajaloos eristada kolme põlvkonda. Esimese põlvkonna korpuste koostamine oli piiratud arvutimälu ressursiga. Olulist osa mängis tekstide valik ja nende kasutusvaldkond. Näiteks 1980. aastate kirjaliku eesti keele korpus koosnes täiskasvanute jaoks Eestis ilmunud tekstidest perioodis 1984-1987. Viimase algallikad olid paberkandjatel.

Teise põlvkonda kuuluvad koondkorpus ja selle allosa tasakaalus korpus. Koondkorpuse puhul tekstide valikul piiranguid ei rakendata, suurt osakaalu omab ajalehekeel ja korpus koosneb umbes 250 miljonist sõnast. Tasakaalus korpus on jagatud ilukirjanduse, ajakirjanduse ja teaduse tekstide vahel. Iga korpuse koostisosa sisaldab umbes 5 miljonit sõna. Tasakaalus korpuse kasutajaliides on sõltumatu koondkorpuse kasutajaliidesest, mis välistab lause sattumist vastusesse mitu korda.

Kolmanda põlvkonna moodustavad veebist võetud tekstid. Korpused on väga suured ja nende sisu on korrapäratu. Sageli on valitud tekstid spontaanse keelekasutusega: foorumid, blogid, kommentaarid ja muud sarnased^[4].

Tuntumad korpused

Eesti kirjakeel korpus 1890-1990
Tasakaalus korpus
Eesti keele koondkorpus
Meditsiinikeele korpus
Morfoloogiliselt ühestatud korpus
Sõltuvussüntaktiliselt ühestatud korpus
Ühestatud sõnatähendustega korpus
Inglise-eesti ja eesti-inglise paralleelkorpus
Vana kirjakeele korpus^[5]
Eesti murrete korpus
Eesti kõnekeele korpus
etTenTen kolmanda põlvkonna korpus

Korpuste kasutamine

Tartu Ülikooli eesti kirjaliku keele korpused on suuremas osas alla laaditavad. Nende uurimiseks saab kasutada enda kirjutatud või vabavaralisi programme. Lisaks saab esitada korpustele päringuid kasutajaliideste kaudu.

Keeleveebi portaali^[6] on koondatud paljud eesti tänapäeva kirjakeele korpused, mis on morfoloogiliselt märgendatud. Seal leitav tasakaalus korpus on lisaks süntaktiliselt ja semantiliselt märgendatud. Tasakaalus korpuse baasil on koostatud sagedusloendeid, mis lubavad arvutada sagedasemad sõnad, sõnavormid, sõnaliigid, käänded ja võrrelda sagedusi näiteks teaduse ja ilukirjanduse keelte vahel.

Keeleveebi kasutamist õpetav video loodud Tartu Ülikoolis "Multimeedia" aine raames^[7].

Vaata ka

Viited

↑ Keelekorpused (vene keeles) Корпус текстов.
↑ Mis on arvutilingvistika? lk. 35-36.
↑ Eesti keele tehnoloogilised ressursid ja vahendid Kadri Muischnek, Heili Orav, Heiki-Jaan Kaalep, Haldur Õim, Tallinn 2003.
↑ Keelekorpused – sama mitmekesised kui keel ise Kadri Muischnek 2015
↑ Vana kirjakeele korpus.
↑ Keeleveebi portaal.
↑ Keeleveebi portaali kasutamist õpetav video.

Välislingid

Kadri Muischnek (2015). Keelekorpused - sama mitmekesised kui keel ise
Eesti korpused
Mis on korpuslingvistika ja mis on korpus
Tekstikorpuste näited
В.П. Захаров, С.Ю. Богданова, Санкт-Петербург, (2013). КОРПУСНАЯ ЛИНГВИСТИКА

[korpusedVene-1] Keelekorpused (vene keeles) Корпус текстов.

[märgendamine-2] Mis on arvutilingvistika? lk. 35-36.

[märgendamineJatk-3] Eesti keele tehnoloogilised ressursid ja vahendid Kadri Muischnek, Heili Orav, Heiki-Jaan Kaalep, Haldur Õim, Tallinn 2003.

[keelekorpusedMuischnek-4] Keelekorpused – sama mitmekesised kui keel ise Kadri Muischnek 2015

[vanaKirjakeel-5] Vana kirjakeele korpus.

[keeleveeb-6] Keeleveebi portaal.

[keeleveebKasut-7] Keeleveebi portaali kasutamist õpetav video.

[1]

[2]

[3]

[4]

[5]

[6]

[7]