Ero sivun ”Korpus” versioiden välillä

Wikipediasta
Siirry navigaatioon Siirry hakuun
[arvioimaton versio][arvioimaton versio]
Poistettu sisältö Lisätty sisältö
Yupik (keskustelu | muokkaukset)
{{Tynkä/Kieli}}
Flit24 (keskustelu | muokkaukset)
Aiheesta muualla: lisätty aihetta käsittelevä lähde
(27 välissä olevaa versiota 21 käyttäjän tekeminä ei näytetä)
Rivi 1: Rivi 1:
'''Korpus''' ([[latina]]n sanasta ''corpus'', kokoelma tai kirjaimellisesti 'keho') on [[Kielitiede|kielitieteen]] alalla käytetty, tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä ([[tekstikorpus]]) tai puhutun kielen nauhoitteita ([[puhekorpus]])<!--mihin nauhoitteista transkriboidut tekstit?-->, jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien [[hypoteesi]]en testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista.<ref name="Arppe">{{Verkkoviite | Osoite = http://www.ling.helsinki.fi/kit/2004k/ctl310corp/Material/luennot-2004k.ppt | Nimeke = Korpukset ja kieli | Tekijä = Antti Arppe | Tiedostomuoto = [[Powerpoint]] | Selite = | Julkaisu = | Ajankohta = | Julkaisupaikka = | Julkaisija = | Viitattu = 31.12.2008 | Kieli = | arkisto = https://web.archive.org/web/20070717122946/http://www.ling.helsinki.fi/kit/2004k/ctl310corp/Material/luennot-2004k.ppt | arkistoitu = 17.7.2007 }}</ref><ref name=":0">{{Verkkoviite|osoite=https://www.kotus.fi/nyt/kolumnit_artikkelit_ja_esitelmat/kielipakina_(2006_2009)/korpukset_ja_kielen_tutkiminen|nimeke=Korpukset ja kielen tutkiminen|julkaisu=Kotimaisten kielten keskus|viitattu=2023-12-15|ietf-kielikoodi=fi}}</ref>
{{Korjattava/kieli|Artikkelin kirjoittaja ei ole natiivi}}


Korpuksia voidaan käyttää tietokoneella. Korpus on siis sähköinen varasto tekstejä tai nauhoitteita. Korpuksia käytetään, kun tutkitaan ilmaisujen käyttöä, lasketaan niiden yleisyyksiä tai arvioidaan tutkimusoletuksia. Kun [[Kielitiede|kielitieteilijä]] haluaa selvittää jonkin [[Sana|sanan]] tai rakenteen käyttäytymistä, hän voi hakea korpuksesta sanan esiintymismuotoja, sen naapurisanoja ja hyviä esimerkkejä sanan käytöstä. Korpuksia voidaan käyttää myös muihin kielentutkimuksen kannalta olennaisiin tarkoituksiin. Suurin osa maailman korpuksista on tekstikorpuksia, vaikka kielitieteen perinteessä puhuttua kieltä pidetään usein kirjoitettua alkuperäisempänä.<ref name=":0" />
'''Korpus''' on tarkoin määrätty ja kootu joukko kirjoitetun kielen tekstejä ([[tekstikorpus]]) tai puhutun kielen nauhoitteita ([[puhekorpus]])<!--mihin nauhoitteista transkriboidut tekstit?-->, jotka ovat poimitut aidoista teksteistä ja tilanteista. Niitä käytetään tarkistamaan oletuksen<ref name="Arppe">{{Verkkoviite | Osoite = http://www.ling.helsinki.fi/kit/2004k/ctl310corp/Material/luennot-2004k.ppt | Nimeke = Korpukset ja kieli | Tekijä = Antti Arppe | Tiedostomuoto = [[Powerpoint]] | Selite = | Julkaisu = | Ajankohta = | Julkaisupaikka = | Julkaisija = | Viitattu = 31.12.2008 | Kieli = }}</ref> yhdestä tai useammasta kielestä tai jostain niiden ominaisuuksesta, esimerkiksi kuinka usein sana esiintyy kyseessä tekstissä, missä yhteydessä se esiintyy, mitkä sanat tai fraasit esiintyvät usein sen lähellä, mitä sanaa tai fraasia yhdellä kielellä käytetään yleisimmiten toisen kielen sanan tai fraasin vastineena, jne.

Korpustutkimuksessa tarkastelun kohteina voivat olla esimerkiksi seuraavanlaiset kysymykset:
#kuinka usein sana esiintyy tekstissä, ([[frekvenssi]] eli taajuus)?
#missä yhteydessä se esiintyy tai mitkä [[Sana|sanat]] tai [[Fraasi|fraasit]] esiintyvät usein sen lähellä, ([[konkordanssi]])?<ref name="Lounela">{{Verkkoviite | Osoite = http://www.ling.helsinki.fi/kit/kurssit/verkkokurssit/korpuskurssi/konk.shtml | Nimeke = Konkordanssi | Tekijä = Mikko Lounela | Tiedostomuoto = | Selite = | Julkaisu = UNIXin alkeet ja tekstikorpusten tietojenkäsittely | Ajankohta = | Julkaisupaikka = | Julkaisija = KIT | Viitattu = 04.12.2009 | Kieli = | arkisto = https://web.archive.org/web/20070611055754/http://www.ling.helsinki.fi/kit/kurssit/verkkokurssit/korpuskurssi/konk.shtml | arkistoitu = 11.6.2007 }}</ref>
#mitä sanaa tai fraasia yhdellä kielellä käytetään yleisimmin toisen kielen sanan tai fraasin vastineena?


<!--==Historia==
<!--==Historia==
Korpuksen käytön historia (esim. http://www.ling.helsinki.fi/kit/kurssit/verkkokurssit/korpuskurssi/corpus-list.html)
korpuksen käytön historia


computer corpus vs. muut korpukset
Computer corpus vs. muut korpukset


==Luokittelutavat==
==Luokittelutavat==
*tuotantotapa: tekstikorpus vs. puhekorpus
*Tuotantotapa: tekstikorpus vs. puhekorpus vs. uudentyyppisiä korpuksia (kuvia, mainoksia, jne.)
*otantatapa: rajoitettu näyte vs. koko teksti
*Otantatapa: rajoitettu näyte vs. koko teksti
*maantieteellinen variaatio: murre vs. yhdistetyt
*Maantieteellinen variaatio: murre vs. yhdistetyt
*kielen ikä: muinais-, keski vai nykykieli
*Kielen ikä: muinais-, keski vai nykykieli
*kielentuottajan ikä: aikuiset, lapset, vanhukset
*Kielentuottajan ikä: aikuiset, lapset, vanhukset
*tekstityyppi: sanomalehtiartikkelit, esitteet, tekniset, jne.
*Tekstityyppi: sanomalehtiartikkelit, esitteet, tekniset, jne.
*avoimuus: muuntamattomat vs. monitorikorpukset
*Avoimuus: muuntamattomat vs. monitorikorpukset
*saatavuus: kaupalliset vs. ei-kaupalliset
*Saatavuus: kaupalliset vs. ei-kaupalliset
*kielisyys: yksikielinen, kaksikielinen tai monikielinen;
*Kielisyys: yksikielinen, kaksikielinen tai monikielinen;
käännökset vs. natiivitekstit
käännökset vs. natiivitekstit


*käsittelytapa: tagging, ei tagging, automattinen vs. ei-automaattinen tagging
*Käsittelytapa: tagging, ei tagging, automattinen vs. ei-automaattinen tagging




==Täydellisyys==
==Täydellisyys==

korpuksen täydellisyys
Korpuksen täydellisyys


==Tekijänoikeusongelmia==
==Tekijänoikeusongelmia==
-->Korpusten sisältö ei välttämättä sovi täsmälleen kaikkeen kielitieteen tutkimukseen. Sähköisten aineistojen merkitys kielen tutkimisessa vahvistuu jatkuvasti.<ref name=":0" />

== Suomessa ==
[[Kotimaisten kielten keskus]] on jatkuvasti mukana keräämässä erilaisia kieliaineistoja tutkijoiden käyttöön. Näihin kuuluu muun muassa sanalippuja, puhetilanteiden nauhoituksia ja eri tavoin rikastettuja sähköisiä tekstiaineistoja. Kotus on esimerkiksi koostanut korpuksen 1900-luvun suomenkielisistä [[Aikakauslehti|aikakauslehtiteksteistä]]. Lisäksi keskuksessa on suomen ja suomenruotsin rinnakkaiskorpus. Tutkimuskeskuksessa on muun muassa kirjalliseen muotoon saatettuja [[Suomen murteet|murrehaastatteluja]], eri murrealueiden sananparsia ja vanhoja tekstejä kirjakielen syntyajalta 1500-luvulta 1800-luvun lopulle saakka. Suomen suurinta sähköistä korpusta, Kielipankkia, hallinnoi kuitenkin [[CSC – Tieteen tietotekniikan keskus|Tieteen tietotekniikan keskus]], CSC. Kielipankki sisältää noin 230 miljoonaa sanaa suomen ja [[Suomenruotsi|suomenruotsin]] aineistoja.<ref name=":0" />

Monet Kotuksen aineistoista ovat sellaisia, että niitä ei voi tarjota vapaasti kansalaisten käyttöön. Tämä johtuu muun muassa [[Tekijänoikeus Suomessa|tekijänoikeuslainsäädännöstä]] ja tarpeesta suojata haastateltujen ja heidän lähipiirinsä [[Yksityisyyden suoja|yksityisyyttä]]. Näin on esimerkiksi yksityishenkilöiden haastatteluihin perustuvissa murreaineistoissa.<ref name=":0" />

== Lähteet ==
{{Viitteet}}


== Aiheesta muualla ==
==Kotimaiset korpukset==
*Kotimaiset korpukset:
-->
** [http://www.kielipankki.fi Kielipankki] FIN-CLARIN -nimisen infrastruktuurikonsortion ylläpitämä palvelu, jossa runsaasti erikielisiä korpuksia (tekstejä, puhetta ym.)
==Viitteet==
** [http://www.helsinki.fi/varieng/ VARIENG]
<references />
** [http://www.kotus.fi/aineistot/ KOTUKSEN korpukset]
** [http://www.ling.helsinki.fi/uhlcs/ Helsingin yliopiston monikielinen korpuspalvelin UHLCS] {{Wayback|1=http://www.ling.helsinki.fi/uhlcs/ |päiväys=20091129155443 }}
** [http://www.edith.fi/kivikorpus/index.htm Aleksis Kivi -korpus (SKS)] {{Wayback|1=http://www.edith.fi/kivikorpus/index.htm |päiväys=20140203211812 }} Toim. Sakari Katajamäki, Ossi Kokko ja Elina Kela. FIN-CLARIN: Finnish Language Resource Infrastructure / CSC – Tieteen tekniikan keskus: Kielipankki 2013.
* Kaislaniemi, Samuli & Säily, Tanja: ”Historiallisten tekstien kerrosteinen materiaalisuus korpuslingvistiikassa”. Teoksessa {{Kirjaviite | Tekijä =Haapaniemi, Riku & Ivaska, Laura & Katajamäki, Sakari (toim.) | Nimeke = Tekstit ympärillämme: Kirjoituksia tekstikäsityksistä ja -käytänteistä | Sivu=167–178 | Vuosi = 2024 | Julkaisupaikka = Tampere | Julkaisija = Tampereen yliopisto | Isbn =978-952-03-3465-9}} [https://urn.fi/URN:ISBN:978-952-03-3465-9 Vapaasti luettavissa]


{{Tynkä/Kieli}}
{{Tynkä/Kieli}}


[[Luokka:Kieliteknologia]]
[[Luokka:Kieliteknologia]]
[[Luokka:Kirjallisuustiede]]

Versio 25. kesäkuuta 2024 kello 11.06

Korpus (latinan sanasta corpus, kokoelma tai kirjaimellisesti 'keho') on kielitieteen alalla käytetty, tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä (tekstikorpus) tai puhutun kielen nauhoitteita (puhekorpus), jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien hypoteesien testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista.[1][2]

Korpuksia voidaan käyttää tietokoneella. Korpus on siis sähköinen varasto tekstejä tai nauhoitteita. Korpuksia käytetään, kun tutkitaan ilmaisujen käyttöä, lasketaan niiden yleisyyksiä tai arvioidaan tutkimusoletuksia. Kun kielitieteilijä haluaa selvittää jonkin sanan tai rakenteen käyttäytymistä, hän voi hakea korpuksesta sanan esiintymismuotoja, sen naapurisanoja ja hyviä esimerkkejä sanan käytöstä. Korpuksia voidaan käyttää myös muihin kielentutkimuksen kannalta olennaisiin tarkoituksiin. Suurin osa maailman korpuksista on tekstikorpuksia, vaikka kielitieteen perinteessä puhuttua kieltä pidetään usein kirjoitettua alkuperäisempänä.[2]

Korpustutkimuksessa tarkastelun kohteina voivat olla esimerkiksi seuraavanlaiset kysymykset:

  1. kuinka usein sana esiintyy tekstissä, (frekvenssi eli taajuus)?
  2. missä yhteydessä se esiintyy tai mitkä sanat tai fraasit esiintyvät usein sen lähellä, (konkordanssi)?[3]
  3. mitä sanaa tai fraasia yhdellä kielellä käytetään yleisimmin toisen kielen sanan tai fraasin vastineena?

Korpusten sisältö ei välttämättä sovi täsmälleen kaikkeen kielitieteen tutkimukseen. Sähköisten aineistojen merkitys kielen tutkimisessa vahvistuu jatkuvasti.[2]

Suomessa

Kotimaisten kielten keskus on jatkuvasti mukana keräämässä erilaisia kieliaineistoja tutkijoiden käyttöön. Näihin kuuluu muun muassa sanalippuja, puhetilanteiden nauhoituksia ja eri tavoin rikastettuja sähköisiä tekstiaineistoja. Kotus on esimerkiksi koostanut korpuksen 1900-luvun suomenkielisistä aikakauslehtiteksteistä. Lisäksi keskuksessa on suomen ja suomenruotsin rinnakkaiskorpus. Tutkimuskeskuksessa on muun muassa kirjalliseen muotoon saatettuja murrehaastatteluja, eri murrealueiden sananparsia ja vanhoja tekstejä kirjakielen syntyajalta 1500-luvulta 1800-luvun lopulle saakka. Suomen suurinta sähköistä korpusta, Kielipankkia, hallinnoi kuitenkin Tieteen tietotekniikan keskus, CSC. Kielipankki sisältää noin 230 miljoonaa sanaa suomen ja suomenruotsin aineistoja.[2]

Monet Kotuksen aineistoista ovat sellaisia, että niitä ei voi tarjota vapaasti kansalaisten käyttöön. Tämä johtuu muun muassa tekijänoikeuslainsäädännöstä ja tarpeesta suojata haastateltujen ja heidän lähipiirinsä yksityisyyttä. Näin on esimerkiksi yksityishenkilöiden haastatteluihin perustuvissa murreaineistoissa.[2]

Lähteet

  1. Antti Arppe: Korpukset ja kieli (Powerpoint) ling.helsinki.fi. Arkistoitu 17.7.2007. Viitattu 31.12.2008.
  2. a b c d e Korpukset ja kielen tutkiminen Kotimaisten kielten keskus. Viitattu 15.12.2023.
  3. Mikko Lounela: Konkordanssi UNIXin alkeet ja tekstikorpusten tietojenkäsittely. KIT. Arkistoitu 11.6.2007. Viitattu 04.12.2009.

Aiheesta muualla

Tämä kieliin tai kielitieteeseen liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.