Obsah
Kurz práce s korpusem v 7 lekcích
Všechny korpusy, jež zpřístupňuje Český národní korpus, je možné (po registraci) prohlížet pomocí několika manažerů či rozhraní. Jejich přehled, výhody a nevýhody jsou uvedeny níže.
Tento kurz vás seznámí s rozhraním KonText (vedle toho je na této wiki k dispozici i manuál rozhraní KonText, který popisuje jeho jednotlivé funkce). Základní principy se do značné míry shodují se staršími dnes už v rámci ČNK nepodporovanými aplikacemi Bonito a NoSkE, zejm. způsob vytváření dotazu (dotazovací jazyk CQL); jisté rozdíly tu však jsou nejen co do vzhledu a ovládání, ale i v oblasti nabízených možností.
Před započetím práce s korpusy ČNK je nutná registrace. S ní vám pomůže sekce Jak začít pracovat s Českým národním korpusem. Celou řadu užitečných informací najdete také v instruktážních videích na YouTube kanálu ČNK.
Obsah
Lekce | Téma | Náplň |
---|---|---|
1. lekce | První dotaz | Jak začít. Typy dotazů |
2. lekce | Zobrazení výsledků | Co lze u dotazu zobrazit. Vnitřní struktura dat, metainformace, ukládání |
3. lekce | Vyhodnocení dotazu | Jak dotaz vyhodnotit. Konkordance, kontext, frekvenční distribuce, třídění |
4. lekce | Regulární výrazy | Využívání regulárních výrazů při dotazování |
5. lekce | Dotazovací jazyk | Dotazovací jazyk CQL, kombinace dotazů, pokročilé dotazy |
6. lekce | Hledání kolokací | Další práce s dotazem. Kolokace, asociační míry a frekvenční distribuce |
7. lekce | Vytváření vlastních subkorpusů | Výběr textů v rámci korpusu, práce s podmínkami |
Bonusová lekce | Hledání v paralelním korpusu | Specifika kladení dotazů a jejich vyhodnocování v paralelním korpusu InterCorp |
Bonusová lekce | Hledání v mluvených korpusech | Specifika kladení dotazů a jejich vyhodnocování v mluvených korpusech řady ORAL |
Bonusová lekce | Hledání v diachronním korpusu | Specifika kladení dotazů a jejich vyhodnocování v diachronním korpusu Diakorp |
Bonusová lekce | Hledání v syntakticky anotovaných korpusech | Specifika kladení dotazů a jejich vyhodnocování v syntakticky anotovaných korpusech (momentálně pouze SYN2015, SYN2020 a InterCorp v13ud) |
Řešení | Řešení úloh ze všech lekcí | Výsledky vyhledávání |
Na vytvoření, testování a aktualizaci kurzu se v různých fázích podíleli: Olga Richterová, Václav Cvrček, Michal Škrabal, Dominika Kováříková, Lucie Chlumská, Jan Kocek, Michala Adamová, Martin Vavřín, Marie Kopřivová, David Lukeš, Zuzana Komrsková, Petra Poukarová, Anna Řehořková, Tomáš Jelínek, Michal Křen a další spolupracovníci ÚČNK.
Korpusové vyhledávače (manažery, rozhraní)
K datům, jež korpusy obsahují, můžeme přistupovat pomocí různých aplikací, tzv. manažerů či rozhraní.
Manažer | Charakteristika | Je aktualizovaný? |
---|---|---|
KonText | nejnovější manažer, vyvíjen od r. 2013 | vyvíjený v ÚČNK (přehled verzí) |
SkE | Sketch Engine, nástupce Bonita fungující v rámci internetového prohlížeče | placený manažer obsahující funkci tzv. word-sketches (slovní profily) |
NoSkE | NoSketch Engine, redukovaná nezpoplatněná verze Sketch Engine | rozhraní už není v rámci ČNK podporováno |
Park | manažer pouze pro přístup k paralelním korpusům | rozhraní už není v rámci ČNK podporováno |
Bonito | v současnosti už nepodporovaný manažer, instaloval se na lokální PC | rozhraní už není v rámci ČNK podporováno |
Další korpusové nástroje
Těmto nástrojům se v kurzu nebudeme přímo věnovat, jde však o další užitečné způsoby, jak vytěžovat data, jež Český národní korpus zpřístupňuje. Doporučujeme vaší pozornosti:
- Pro školy - stránka s korpusovými cvičeními pro výuku jazyka na ZŠ a SŠ (přejít na aplikaci)