Mine sisu juurde

Keelekorpus: erinevus redaktsioonide vahel

Allikas: Vikipeedia
Eemaldatud sisu Lisatud sisu
Anastassias (arutelu | kaastöö)
Resümee puudub
Resümee puudub
 
(ei näidata 10 kasutaja 18 vahepealset redaktsiooni)
1. rida: 1. rida:
'''Korpuseks''' nimetatakse [[lingvistika]]s valitud, digitaliseeritud ja teatud reeglite järgi töödeldud tekstide kogumit. Korpusi kasutatakse keele uurimise alusena statistilises analüüsis, statistiliste hüpoteeside kontrollimiseks ja keelereeglite kindlaks tegemiseks.
'''Korpuseks''' nimetatakse [[lingvistika]]s valitud, digiteeritud ja teatud reeglite järgi töödeldud tekstide kogumit. Korpusi kasutatakse keele uurimise alusena [[Statistiline analüüs|statistilises analüüsis]], statistiliste hüpoteeside kontrollimiseks ja keelereeglite kindlakstegemiseks.


Korpus võib sisaldada ühe keele (ühekeelne korpus) või mitme keele (mitmekeeline korpus) tekste. Mitme keelelised korpused, mis olid loodud keelte võrdlemiseks, nimetatakse paralleelseteks korpusteks.
Korpus võib sisaldada ühe keele (ühekeelne korpus) või mitme keele (mitmekeelne korpus) tekste. Mitmekeelseid korpusi, mis on loodud eri keelte võrdlemiseks, nimetatakse [[paralleelkorpus]]teks.


== Korpuste märgendamine ==
Korpuste tähtsuse tõstmiseks uuringute jaoks, kasutatakse märgendamist (annotatsiooni)<ref name="korpusedVene"> Keelekorpused (vene keeles) [https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D0%BF%D1%83%D1%81_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2''Корпус текстов''.]</ref>, sest märgendamata tekstikogude (tekstoteegide) rakendamisvõimalused on piiratud. Analüüsitava materjali maht on tavaliselt suur ja tasakaalustatud kujul on rohkem võimalusi objektiivsete uurimistulemuste saavutamiseks.
Korpuste tähtsuse tõstmiseks uuringute jaoks kasutatakse [[Märgendamine|märgendamist]] (annotatsiooni)<ref name="korpusedVene">Keelekorpused (vene keeles) [https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D0%BF%D1%83%D1%81_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2''Корпус текстов''.]</ref>, sest märgendamata tekstikogude (tekstoteekide) rakendamisvõimalused on piiratud. Analüüsitava materjali maht on tavaliselt suur ja tasakaalustatud kujul on rohkem võimalusi objektiivsete uurimistulemuste saavutamiseks.


Eristatakse mitut märgendamise tehnikat<ref name="märgendamine">Mis on arvutilingvistika? [http://www.emakeeleselts.ee/omakeel/2004_1/Ariva.pdf''Lilian Ariva, Liina Eskor lk. 35-36''.]</ref>:
Eristatakse mitu erinevat märgendamise tehnikat:


* Tehniline - eraldatakse tekstiosad: pealkirjad, laused, lõigud, fraasid mõnel juhtudel nähtused, mis võrreldes tavaliste sõnadega võivad käituda väga erinevalt (lühendid, numbrid);
* Tehniline eraldatakse [[tekstiosa]]d: pealkirjad, laused, lõigud, fraasid; mõnel juhtudel nähtused, mis võrreldes tavaliste sõnadega võivad käituda väga erinevalt (lühendid, numbrid).
* Ortograafiline – määratakse kindlaks mõne märge funktsioon. Näitena võib tuua punkti funktsioon (lause lõpus, lühendites), suurtähe funktsioon (pärisnimi, lause algus, suurtest tähtedest koosnev lühend);
* Ortograafiline – määratakse kindlaks mõne märgi funktsioon. Näitena võib tuua punkti funktsiooni (lause lõpus, lühendites), suurtähe funktsiooni (pärisnimi, lause algus, suurtest tähtedest koosnev lühend).
* Semantiline – märgendatakse semantilisi suhteid või tähenduslikku kuuluvust;
* Semantiline – märgendatakse [[Semantika|semantilisi]] suhteid või tähenduslikku kuuluvust.
* Diskursuslik – lause tasandist kõrgemate nähtuste märgendamine;
* Diskursuslik – lause tasandist kõrgemate nähtuste märgendamine.
* Morfoloogiline – märgendatakse iga sõna sõnaliik, algvorm ja info grammatiliste kategooriate kohta;
* Morfoloogiline – märgendatakse iga sõna sõnaliik, [[algvorm]] ja teave grammatiliste kategooriate kohta.
* Süntaktiline – igale sõnale lauses on lisatud märgend tema funktsiooni kohta;
* Süntaktiline – igale sõnale lauses on lisatud märgend tema funktsiooni kohta.


Kõne korpustes kasutatakse lisaks prosoodilist ja foneetilist märgendamist. Prosoodiline on vajalik rõhu, intonatsiooni, pauside eristamiseks. Foneetiline aga suulise kõne häälduse märkimiseks.
Kõnekorpustes kasutatakse lisaks [[Prosoodia|prosoodilist]] ja [[Foneetika|foneetilist]] märgendamist. Prosoodiline on vajalik rõhu, intonatsiooni, pauside eristamiseks, foneetiline aga suulise kõne häälduse märkimiseks.


Kõige levinumad maailmas on morfoloogiline ja süntaktiline märgendamine. Tüüpiliselt süntaktiliselt märgendatud korpused on ka morfoloogiliselt märgendatud.
Kõige levinumad maailmas on morfoloogiline ja [[Süntaktika|süntaktiline]] märgendamine. Tüüpiliselt on süntaktiliselt märgendatud korpused ka morfoloogiliselt märgendatud.


Märgendamine algab teksti jagamisest lõikudeks ja lauseteks (või mingiteks teisteks üksusteks). Seda tehakse tavaliselt täisautomaatselt, kuid märgendada saab ka käsitsi (arvuti interaktiivse abiga) või kombineerides neid kahte meetodit.
Märgendamine algab teksti jagamisest lõikudeks ja lauseteks (või mingiteks teisteks üksusteks). Seda tehakse tavaliselt täisautomaatselt, kuid märgendada saab ka käsitsi (arvutipoolse interaktiivse abiga) või kombineerides neid kahte meetodit<ref name="märgendamineJatk">Eesti keele tehnoloogilised ressursid ja vahendid [http://www.hm.ee/index.php?popup=download&id=3993''Kadri Muischnek, Heili Orav, Heiki-Jaan Kaalep, Haldur Õim, Tallinn 2003''.]</ref>.


==Eesti keele korpused ==
==Ajalugu==
=== Ajalugu ===
Eesti kõige vanim kirjakeele korpus ulatub 1889.aastasse ja selle uurimisperiood annab võimaluse jälgida eesti keele arengut umbes 650 aasta vältel.
Eesti kõige vanem kirjakeelekorpus ulatub 1889. aastasse ja selle uurimisperiood annab võimaluse jälgida eesti keele arengut umbes 650 aasta vältel.


Edasi korpuste ajaloos saab eristada kolme põlvkonda. Esimese põlvkonna korpused olid piiratud arvutimälu ressursiga. Olulist osa mängis tekstide valik ja nende kasutusvaldkond. Näiteks 80ndate aastate kirjaliku eesti keele korpus koosnes täiskasvanute jaoks Eestis ilmunud tekstidest perioodis 1984-1987. Viimase algallikad olid paberkandjatel.
Edasi saab korpuste ajaloos eristada kolme põlvkonda. Esimese põlvkonna korpuste koostamine oli piiratud arvutimälu ressursiga. Olulist osa mängis tekstide valik ja nende kasutusvaldkond. Näiteks 1980. aastate kirjaliku eesti keele korpus koosnes täiskasvanute jaoks Eestis ilmunud tekstidest perioodil 1984–1987. Viimase algallikad olid paberkandjatel.


Teise põlvkonda kuuluvad koondkorpus ja selle allosa tasakaalus korpus. Koondkorpuse puhul tekstide valiku piiranguid ei rakendata, suure osakaalu omab ajalehekeel ja korpus koosneb umbes 250 miljonist sõnast.
Teise põlvkonda kuuluvad koondkorpus ja selle allosa tasakaalus korpus. Koondkorpuse puhul tekstide valikul piiranguid ei rakendata, suurt osakaalu omab ajalehekeel ja korpus koosneb umbes 250 miljonist sõnast. Tasakaalus korpus on jagatud [[ilukirjandus]]e, [[ajakirjandus]]e ja teaduse tekstide vahel. Iga korpuse koostisosa sisaldab umbes viis miljonit sõna. Tasakaalus korpuse [[kasutajaliides]] on sõltumatu koondkorpuse kasutajaliidesest, mis välistab lause sattumist vastusesse mitu korda.


Kolmanda põlvkonna moodustavad veebist võetud tekstid. Korpused on väga suured ja nende sisu on korrapäratu. Sageli on valitud tekstid spontaanse keelekasutusega: foorumid, blogid, kommentaarid ja muud sarnased<ref name="keelekorpusedMuischnek">Kadri Muischnek (2015) [http://www.emakeeleselts.ee/omakeel/2015_1/OK_2015-1_05.pdf Keelekorpused – sama mitmekesised kui keel ise]</ref>.
Tasakaalus korpus on jagatud aga ilukirjanduse, ajakirjanduse ja teaduse tekstide vahel. Iga korpuse koostisosa sisaldab umbes 5 miljonit sõna. Tasakaalus korpuse kasutajaliides on sõltumatu koondkorpuse kasutajaliidesest, mis välistab lause sattumist vastusesse mitu korda.
Kolmanda põlvkonna moodustavad veebist võetud tekstid. Korpused on väga suured ja nende sisu on korrapäratu. Tihti peale on võetud tekstid spontaanse keelekasutusega: foorumid, blogid, kommentaarid ja muud sarnased.


2013. aastal oli eesti keel ühendkorpuses 563 miljonit ja 2023. aastal juba 3,8 miljardit tekstisõna. Selles korpuses on mitmed alamkogud nagu meediatekstid, akadeemilised tekstid, ilukirjanduse korpused, Tartu ülikooli koondkorpus, [[Vikipeedia]], jne.<ref>Margit Langemets, Kristina Koppel, Madis Jürviste. [https://www.sirp.ee/s1-artiklid/varamu/eesti-keele-pesa/ "Eesti keele pesa"] Sirp, 9. veebruar 2024</ref>
==Tuntumad korpused==

* Eesti kirjakeel korpus 1890-1990
=== Tuntumad korpused ===
* Eesti kirjakeele korpus 1890–1990
* Tasakaalus korpus
* Tasakaalus korpus
* Eesti keele koondkorpus
* Eesti keele koondkorpus
39. rida: 42. rida:
* Ühestatud sõnatähendustega korpus
* Ühestatud sõnatähendustega korpus
* Inglise-eesti ja eesti-inglise paralleelkorpus
* Inglise-eesti ja eesti-inglise paralleelkorpus
* Vana kirjakeele korpus
* Vana kirjakeele korpus<ref name="vanaKirjakeel">[http://vakk.ut.ee''korpus''. Vana kirjakeele]</ref>
* Eesti murrete korpus
* Eesti murrete korpus
* Eesti kõnekeele korpus
* Eesti kõnekeele korpus
* etTenTen kolmanda põlvkonna korpus
* etTenTen kolmanda põlvkonna korpus


==Korpuste kasutamine==
=== Korpuste kasutamine ===
Tartu Ülikooli eesti kirjaliku keele korpused on suuremas osas alla laaditavad. Nende uurimiseks saab kasutada enda kirjutatud või vabavaralisi programme. Lisaks saab esitada korpustele päringuid kasutajaliideste kaudu.
[[Pilt:Keeleveeb.png|500px|paremal]]

Tartu Ülikooli eesti kirjaliku keele korpused on suuremas osas alla laaditavad. Nende uurimiseks saab kasutada enda kirjutatud või vabavara programme. Lisaks saab esitada korpustele päringuid kasutajaliideste kaudu.

Keeleveebi portaali on koondatud paljud eesti tänapäeva kirjakeele korpused, mis on morfoloogiliselt märgendatud. Leitav seal tasakaalus korpus on lisaks süntaktiliselt ja semantiliselt märgendatud. Tasakaalu korpuse baasil on koostatud sagedusloendeid, mis lubavad arvutada sagedasemad sõnad, sõnavormid, sõnaliigid, käänded ja võrrelda sagedusi näiteks teaduse ja ilukirjanduse keelte vahel.





Keeleveebi portaali<ref name="keeleveeb">[http://www.keeleveeb.ee/''portaal''. Keeleveebi]</ref> on koondatud paljud eesti tänapäeva kirjakeele korpused, mis on morfoloogiliselt märgendatud. Seal leitav tasakaalus korpus on lisaks süntaktiliselt ja semantiliselt märgendatud. Tasakaalus korpuse baasil on koostatud sagedusloendeid, mis lubavad arvutada sagedasemad sõnad, sõnavormid, sõnaliigid, käänded ja võrrelda sagedusi näiteks teaduse ja ilukirjanduse keelte vahel.


Keeleveebi kasutamist õpetav video on loodud Tartu Ülikoolis multimeedia aine raames<ref name="keeleveebKasut">Keeleveebi portaali [http://www.uttv.ee/naita?id=21284''kasutamist õpetav video''.]</ref>.


== Vaata ka ==
== Vaata ka ==
* [[Korpuslingvistika]]
* [[Korpuslingvistika]]
* [[Keeleressursid]]
* [[Keeleressursid]]



== Viited ==
== Viited ==
65. rida: 62. rida:


==Välislingid==
==Välislingid==
*[http://www.cl.ut.ee/korpused/ Eesti korpused]
*[http://www.emakeeleselts.ee/omakeel/2015_1/OK_2015-1_05.pdf Keelekorpused - sama mitmekesised kui keel ise - Kadri Muischnek 2015]
*[http://www.cl.ut.ee/kursused/korp_ling01.html Mis on korpuslingvistika ja mis on korpus]
*[http://www.hm.ee/index.php?popup=download&id=3993 Eesti keele tehnoloogilised ressursid ja vahendid - Kadri Muischnek, Heili Orav, Heiki-Jaan Kaalep, Haldur Õim, Tallinn 2003]
*[https://keeleressursid.ee/et/keeleressursid Tekstikorpuste näited]

*[https://www.chtk.ch/index.php/en/ The Swiss Text Corpus]
*В.П. Захаров, С.Ю. Богданова, Санкт-Петербург, (2013). [https://www.academia.edu/7912159/%D0%9A%D0%9E%D0%A0%D0%9F%D0%A3%D0%A1%D0%9D%D0%90%D0%AF_%D0%9B%D0%98%D0%9D%D0%93%D0%92%D0%98%D0%A1%D0%A2%D0%98%D0%9A%D0%90 КОРПУСНАЯ ЛИНГВИСТИКА]


[[Kategooria:Keeleteadus]]
[[Kategooria:Arvutilingvistika]]

Viimane redaktsioon: 11. veebruar 2024, kell 20:51

Korpuseks nimetatakse lingvistikas valitud, digiteeritud ja teatud reeglite järgi töödeldud tekstide kogumit. Korpusi kasutatakse keele uurimise alusena statistilises analüüsis, statistiliste hüpoteeside kontrollimiseks ja keelereeglite kindlakstegemiseks.

Korpus võib sisaldada ühe keele (ühekeelne korpus) või mitme keele (mitmekeelne korpus) tekste. Mitmekeelseid korpusi, mis on loodud eri keelte võrdlemiseks, nimetatakse paralleelkorpusteks.

Korpuste märgendamine

[muuda | muuda lähteteksti]

Korpuste tähtsuse tõstmiseks uuringute jaoks kasutatakse märgendamist (annotatsiooni)[1], sest märgendamata tekstikogude (tekstoteekide) rakendamisvõimalused on piiratud. Analüüsitava materjali maht on tavaliselt suur ja tasakaalustatud kujul on rohkem võimalusi objektiivsete uurimistulemuste saavutamiseks.

Eristatakse mitut märgendamise tehnikat[2]:

  • Tehniline – eraldatakse tekstiosad: pealkirjad, laused, lõigud, fraasid; mõnel juhtudel nähtused, mis võrreldes tavaliste sõnadega võivad käituda väga erinevalt (lühendid, numbrid).
  • Ortograafiline – määratakse kindlaks mõne märgi funktsioon. Näitena võib tuua punkti funktsiooni (lause lõpus, lühendites), suurtähe funktsiooni (pärisnimi, lause algus, suurtest tähtedest koosnev lühend).
  • Semantiline – märgendatakse semantilisi suhteid või tähenduslikku kuuluvust.
  • Diskursuslik – lause tasandist kõrgemate nähtuste märgendamine.
  • Morfoloogiline – märgendatakse iga sõna sõnaliik, algvorm ja teave grammatiliste kategooriate kohta.
  • Süntaktiline – igale sõnale lauses on lisatud märgend tema funktsiooni kohta.

Kõnekorpustes kasutatakse lisaks prosoodilist ja foneetilist märgendamist. Prosoodiline on vajalik rõhu, intonatsiooni, pauside eristamiseks, foneetiline aga suulise kõne häälduse märkimiseks.

Kõige levinumad maailmas on morfoloogiline ja süntaktiline märgendamine. Tüüpiliselt on süntaktiliselt märgendatud korpused ka morfoloogiliselt märgendatud.

Märgendamine algab teksti jagamisest lõikudeks ja lauseteks (või mingiteks teisteks üksusteks). Seda tehakse tavaliselt täisautomaatselt, kuid märgendada saab ka käsitsi (arvutipoolse interaktiivse abiga) või kombineerides neid kahte meetodit[3].

Eesti keele korpused

[muuda | muuda lähteteksti]

Eesti kõige vanem kirjakeelekorpus ulatub 1889. aastasse ja selle uurimisperiood annab võimaluse jälgida eesti keele arengut umbes 650 aasta vältel.

Edasi saab korpuste ajaloos eristada kolme põlvkonda. Esimese põlvkonna korpuste koostamine oli piiratud arvutimälu ressursiga. Olulist osa mängis tekstide valik ja nende kasutusvaldkond. Näiteks 1980. aastate kirjaliku eesti keele korpus koosnes täiskasvanute jaoks Eestis ilmunud tekstidest perioodil 1984–1987. Viimase algallikad olid paberkandjatel.

Teise põlvkonda kuuluvad koondkorpus ja selle allosa tasakaalus korpus. Koondkorpuse puhul tekstide valikul piiranguid ei rakendata, suurt osakaalu omab ajalehekeel ja korpus koosneb umbes 250 miljonist sõnast. Tasakaalus korpus on jagatud ilukirjanduse, ajakirjanduse ja teaduse tekstide vahel. Iga korpuse koostisosa sisaldab umbes viis miljonit sõna. Tasakaalus korpuse kasutajaliides on sõltumatu koondkorpuse kasutajaliidesest, mis välistab lause sattumist vastusesse mitu korda.

Kolmanda põlvkonna moodustavad veebist võetud tekstid. Korpused on väga suured ja nende sisu on korrapäratu. Sageli on valitud tekstid spontaanse keelekasutusega: foorumid, blogid, kommentaarid ja muud sarnased[4].

2013. aastal oli eesti keel ühendkorpuses 563 miljonit ja 2023. aastal juba 3,8 miljardit tekstisõna. Selles korpuses on mitmed alamkogud nagu meediatekstid, akadeemilised tekstid, ilukirjanduse korpused, Tartu ülikooli koondkorpus, Vikipeedia, jne.[5]

Tuntumad korpused

[muuda | muuda lähteteksti]
  • Eesti kirjakeele korpus 1890–1990
  • Tasakaalus korpus
  • Eesti keele koondkorpus
  • Meditsiinikeele korpus
  • Morfoloogiliselt ühestatud korpus
  • Sõltuvussüntaktiliselt ühestatud korpus
  • Ühestatud sõnatähendustega korpus
  • Inglise-eesti ja eesti-inglise paralleelkorpus
  • Vana kirjakeele korpus[6]
  • Eesti murrete korpus
  • Eesti kõnekeele korpus
  • etTenTen kolmanda põlvkonna korpus

Korpuste kasutamine

[muuda | muuda lähteteksti]

Tartu Ülikooli eesti kirjaliku keele korpused on suuremas osas alla laaditavad. Nende uurimiseks saab kasutada enda kirjutatud või vabavaralisi programme. Lisaks saab esitada korpustele päringuid kasutajaliideste kaudu.

Keeleveebi portaali[7] on koondatud paljud eesti tänapäeva kirjakeele korpused, mis on morfoloogiliselt märgendatud. Seal leitav tasakaalus korpus on lisaks süntaktiliselt ja semantiliselt märgendatud. Tasakaalus korpuse baasil on koostatud sagedusloendeid, mis lubavad arvutada sagedasemad sõnad, sõnavormid, sõnaliigid, käänded ja võrrelda sagedusi näiteks teaduse ja ilukirjanduse keelte vahel.

Keeleveebi kasutamist õpetav video on loodud Tartu Ülikoolis multimeedia aine raames[8].

  1. Keelekorpused (vene keeles) Корпус текстов.
  2. Mis on arvutilingvistika? Lilian Ariva, Liina Eskor lk. 35-36.
  3. Eesti keele tehnoloogilised ressursid ja vahendid Kadri Muischnek, Heili Orav, Heiki-Jaan Kaalep, Haldur Õim, Tallinn 2003.
  4. Kadri Muischnek (2015) Keelekorpused – sama mitmekesised kui keel ise
  5. Margit Langemets, Kristina Koppel, Madis Jürviste. "Eesti keele pesa" Sirp, 9. veebruar 2024
  6. korpus. Vana kirjakeele
  7. portaal. Keeleveebi
  8. Keeleveebi portaali kasutamist õpetav video.

Välislingid

[muuda | muuda lähteteksti]