Ero sivun ”Korpus” versioiden välillä

Wikipediasta
Siirry navigaatioon Siirry hakuun
[arvioimaton versio][arvioimaton versio]
Poistettu sisältö Lisätty sisältö
pEi muokkausyhteenvetoa
Yupik (keskustelu | muokkaukset)
ref
Rivi 1: Rivi 1:
'''Korpus''' ([[latina]]n sanasta ''corpus'', kokoelma) on tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä ([[tekstikorpus]]) tai puhutun kielen nauhoitteita ([[puhekorpus]])<!--mihin nauhoitteista transkriboidut tekstit?-->, jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien hypoteesien testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista.<ref name="Arppe">{{Verkkoviite | Osoite = http://www.ling.helsinki.fi/kit/2004k/ctl310corp/Material/luennot-2004k.ppt | Nimeke = Korpukset ja kieli | Tekijä = Antti Arppe | Tiedostomuoto = [[Powerpoint]] | Selite = | Julkaisu = | Ajankohta = | Julkaisupaikka = | Julkaisija = | Viitattu = 31.12.2008 | Kieli = }}</ref>
'''Korpus''' ([[latina]]n sanasta ''corpus'', kokoelma) on tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä ([[tekstikorpus]]) tai puhutun kielen nauhoitteita ([[puhekorpus]])<!--mihin nauhoitteista transkriboidut tekstit?-->, jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien hypoteesien testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista.<ref name="Arppe">{{Verkkoviite | Osoite = http://www.ling.helsinki.fi/kit/2004k/ctl310corp/Material/luennot-2004k.ppt | Nimeke = Korpukset ja kieli | Tekijä = Antti Arppe | Tiedostomuoto = [[Powerpoint]] | Selite = | Julkaisu = | Ajankohta = | Julkaisupaikka = | Julkaisija = | Viitattu = 31.12.2008 | Kieli = }}</ref>

Tarkastelun kohteina voivat olla esimerkiksi seuraavanlaiset kysymykset: kuinka usein sana esiintyy tekstissä, missä yhteydessä se esiintyy, mitkä sanat tai fraasit esiintyvät usein sen lähellä tai mitä sanaa tai fraasia yhdellä kielellä käytetään yleisimmin toisen kielen sanan tai fraasin vastineena.
Tarkastelun kohteina voivat olla esimerkiksi seuraavanlaiset kysymykset:
#kuinka usein sana esiintyy tekstissä, ([[frekvenssi]])
#missä yhteydessä se esiintyy tai mitkä sanat tai fraasit esiintyvät usein sen lähellä,
([[konkordanssi]])<ref name="Lounela">{{Verkkoviite | Osoite = http://www.ling.helsinki.fi/kit/kurssit/verkkokurssit/korpuskurssi/konk.shtml | Nimeke = Konkordanssi | Tekijä = Mikko Lounela| Tiedostomuoto = | Selite = | Julkaisu = UNIXin alkeet ja tekstikorpusten tietojenkäsittely | Ajankohta = | Julkaisupaikka = | Julkaisija = KIT | Viitattu = 04.12.2009 | Kieli = }}</ref>
#mitä sanaa tai fraasia yhdellä kielellä käytetään yleisimmin toisen kielen sanan tai fraasin vastineena.


<!--==Historia==
<!--==Historia==
Korpuksen käytön historia
Korpuksen käytön historia (esim. http://www.ling.helsinki.fi/kit/kurssit/verkkokurssit/korpuskurssi/corpus-list.html)


Computer corpus vs. muut korpukset
Computer corpus vs. muut korpukset

Versio 4. joulukuuta 2009 kello 12.56

Korpus (latinan sanasta corpus, kokoelma) on tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä (tekstikorpus) tai puhutun kielen nauhoitteita (puhekorpus), jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien hypoteesien testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista.[1]

Tarkastelun kohteina voivat olla esimerkiksi seuraavanlaiset kysymykset:

  1. kuinka usein sana esiintyy tekstissä, (frekvenssi)
  2. missä yhteydessä se esiintyy tai mitkä sanat tai fraasit esiintyvät usein sen lähellä,

(konkordanssi)[2]

  1. mitä sanaa tai fraasia yhdellä kielellä käytetään yleisimmin toisen kielen sanan tai fraasin vastineena.

Viitteet

  1. Antti Arppe: Korpukset ja kieli (Powerpoint) ling.helsinki.fi. Viitattu 31.12.2008.
  2. Mikko Lounela: Konkordanssi UNIXin alkeet ja tekstikorpusten tietojenkäsittely. KIT. Viitattu 04.12.2009.
Tämä kieliin tai kielitieteeseen liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.