AplikaceAplikace
Nastavení

Aplikace Morfio slouží k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat. Obecně je každý slovotvorný vztah - vedle složky sémantické, kterou lze jen obtížně automaticky uchopit - vytvářen 1) formální shodou/podobností v určitých částech slova, tzv. báze (např. dřev- je část společná pro slova dřevo i dřevěný) a 2) formálními odlišnostmi v částech specifických, tzv. formantech (morfy -o a -ěný v předchozím příkladu). Cílem aplikace je najít všechny dvojice, resp. trojice nebo čtveřice, jednotek v korpusu, které se shodují v bázi a liší se pouze specifikovanými formanty.
Na rozdíl od běžně užívaného přístupu onomaziologického (význam → forma) se při vytěžování korpusu, který není sémanticky označkován, musí vycházet od formy (přístup semaziologický). To samozřejmě může přinášet problémy (např. v případě homonymie), jejichž řešení přesahuje možnosti takto koncipovaného nástroje.

Výstupem aplikace Morfio není a nemůže být bezchybný a bez jakýchkoli úprav, revize a lingvistické manipulace publikovatelný výstup, spíš se jedná o pomůcku, která množství dat dokáže pro lingvistické účely předzpracovat tak, aby analýza byla rychlejší, výtěžnější a celkově pro badatele jednodušší. Stejně jako u jiných korpusových vyhledávačů je tedy cílem pouze snadné dosažení 100% úspěšnosti hledání daného typu (recall) a přehledné setřídění výsledků, zatímco jejich relevantnost (precision) je zcela ponechána na úsudku uživatele: tj. samotné formulaci dotazu a následném vyhodnocení nálezů.

Zadání dotazu

Vzory

V rámci aplikace Morfio je slovotvorný model, jehož produktivitu chceme s jeho pomocí odhadnout a demonstrovat, chápán jako vztah mezi dvěma nebo více skupinami jednotek (tradičně: slova základová a odvozená). Vzhledem k tomu, že analýza je založena na formální podobnosti, odhaluje vztahy i tam, kde by tradiční slovotvorná teorie viděla vztah komplikovanější (např. zahrnutím třetí jednotky, s jejíž pomocí je první slovo od druhého odvozeno). Procesuální charakter slovotvorby (někdy hraničící až s etymologií) je v tomto přístupu nahrazen přístupem striktně synchronním a relačním; slovotvorba je ve světle těchto premis chápána jako hledání a analyzování pravidelně se opakujících languových vztahů mezi jednotkami lexikonu, které se realizují formální odlišností, jíž odpovídá ustálený lexikálně-sémantický rozdíl (jde tedy o nacházení takových formálních změn, které mají pravidelně se opakující sémantický korelát).

Pro ilustraci si můžeme uvést jednoduchý příklad. Představme si, že nás zajímá rozsah a produktivita slovotvorného modelu reprezentovaného dvojicí slov lovit a úlovek. Nejprve identifikujeme společné části (báze, B) a odlišné části (formanty, F).

 F1BF2
1. vzor lovit
2. vzorúlovek

Každou ze skupin slov, která do modelu vstupuje, musí uživatel definovat jako jeden vzor. Zadání vzoru může využít téměř všechny možnosti, které poskytují regulární výrazy a dotazovací jazyk systému Manatee/SketchEngine. Skupiny tvarů nebo lemmat vymezené jednotlivými vzory jsou pak aplikací porovnávány a podle uživatelovy specifikace jsou mezi nimi odhaleny formální podobnosti indikující slovotvorné vztahy.

Každý vzor je sekvencí částí společných všem vzorům a částí pro jednotlivé vzory specifických. Části všem vzorům společné (vyznačeny ve formuláři žlutou podkladovou barvou) jsou analogické ke slovotvorné bázi, části odlišné pak plní roli formantů. Zadávací formulář automaticky zajišťuje, aby všechny společné části měly identické zadání, a naopak kontroluje, aby odlišné části nebyly stejné. Součástí specifikace vzorů může být i jejich morfologická charakteristika na úrovni slovního druhu (viz menu vpravo od vstupních polí) nebo i podrobnější (konkrétní morfologická informace zapsaná pomocí tagu).

Pomocí značek <+ a +> může uživatel přidávat další části (sloupce) ke vzorům, ikona křížku () slouží k jejich smazání. Roletové menu nad jednotlivými částmi slouží k specifikaci toho, zda se jedná o část společnou/bázovou nebo odlišnou/formantovou. Pomocí těchto nástrojů je možné snadno vytvořit libovolnou sekvenci společných a odlišných částí pro všechny vzory. Odkaz "Další vzor" umožňuje přidat další řádek do zadávání.

Do všech polí je možné zapisovat jak konkrétní znaky, tak regulární výrazy se speciálním významem umožňující vyhledávat podle obecného vzorce. Pro zjištění rozsahu a produktivity slovotvorného modelu je vhodné explicitně specifikovat formanty (tedy části odlišné) a pomocí nespecifických regulárních výrazů (např. .* pro sekvenci libovolných znaků nebo .+ pro sekvenci jednoho a více libovolných znaků) části společné. Zobecníme-li tak příklad uvedený výše, dostaneme modelový zápis obou vzorů.

 F1BF2
1. vzor .+it
2. vzorú.+ek

Vedle standardních regulárních výrazů nabízí aplikace pro účely slovotvorného výzkumu i předpřipravenou sadu fonémových skupin. Vedle každého zadávacího pole je pod ikonou () dostupné roletové menu, které umožňuje do dotazu vložit i některé relevantní skupiny hlásek.

Při přejetí myši přes položku v menu se zobrazí stručná nápověda, po vybrání některé ze skupin se v příslušné části dotazu objeví zkratka, např. [:Alveol:], která je při vyhodnocování dotazu nahrazena písmeny označujícími všechny české alveoláry.
Pozn.: Regulární výrazy reprezentující skupiny hlásek, které jsou v menu dostupné, byly vytvářeny s ohledem na možnou změnu fonologické hodnoty písmena ve specifickém kontextu. Zvolí-li uživatel např. palatální hlásky, bude skupina reprezentovat jak písmena ď, ť, ň, j, tak i d, t, n stojící před i, í nebo ě.

Specifikace zkoumaných dat a atributů

Pod specifikací vzorů je možné nastavit obecné parametry dotazu, které určují v jakých korpusech a na jakých typech jednotek (word/lemma) bude průzkum prováděn. Vedle toho může uživatel omezit prohledávání pouze na jednotky s určitou minimální frekvencí, příp. může ovlivnit i to, zda má být analýza citlivá na velikost písmen. Platí přitom, že čím větší objem dat je nutné prohledávat (větší korpus, menší minimální frekvence, slovní tvary namísto lemmat, s rozlišováním velikostí písmen), tím pomalejší analýza bude.

Alternace

Další možnosti nastavení analýzy se skrývají v rozbalovací sekci Alternace. Po kliknutí na ni je možné z nabídky vybrat, jaké typy hláskových změn se můžou objevit ve sledovaném modelu.

Alternace umožňují vyhledávat i takové dvojice, kde shoda v bázi není stoprocentní. Např. u dvojice slov moucha - muška, dochází ke dvěma hláskovým obměnám: ou > u a ch > š. Pokud uživatel tyto alternace ve výběru nezvolí, nebude tato dvojice slov (a dvojice strukturně podobné) do výsledku zahrnuta, protože u ní nebude identifikována přesná formální shoda.
Pozn.: Alternace se aplikují pouze na společné části (báze), nikoli na formanty, a navíc pouze v případě, že vzor je definován pomocí nespecifických zástupných znaků (tečka s hvězdičkou či znaménkem plus). V případě, že společná část je definována např. výrazem .+ch, nebude u takto explicitně uvedených znaků (zde ch) provedena.

Příklad zadání

Příkladem využití jednotlivých možností aplikace může být hledání dvojic adjektiv, která se objevují jak v pozitivu, tak v superlativu. Kompletní zadání je patrné z následujícího obrázku.

Vzor 1 specifikuje, že hledáme adjektiva, která nemají předponu a končí na í/ý (tvar pozitivu) a na konci báze, těsně před koncovým formantem, se nachází libovolný konsonant.
Vzor 2 je rozšířený o předponu nej- a měl by tak zachycovat všechny superlativy končící na -ší, příp. -ejší (dotaz tedy ignoruje superlativy končící na -čí).
Vzhledem k tomu, že standardně jsou kvantifikátory (*, +) v regulárních výrazech "hladové", musíme do společné (tj. prostřední) části obou vzorů vložit symbol "?", který zajistí, že delší verze formantu -ejší nebude chápána jako část báze.
Analýzu je vzhledem k lemmatizaci korpusů řady SYN třeba provádět na slovních tvarech (komparativ i superlativ jsou lemmatizovány dohromady pod pozitiv).
Zároveň je třeba zapnout některé alternace, které zajistí, že pravidelné hláskové změny na švu mezi bází a formantem budou zohledněny.

Zadání a výsledky každého dotazu jsou uloženy na serveru pro případné další užití. Jejich opětovné vyvolání je možné za použití odkazu, který se objeví v dolním pravém rohu formuláře s dotazem a který obsahuje jednoznačný klíč vedoucí ke konkrétnímu zadání. Tento odkaz je tak možné využít při citování výsledků v literatuře.

Jazyk:
Korpus: Frekvence vyšší než: Hledat: Vyhodnotit:
A = a

Alternace

vokalické kvantitativní:

a - á e - é i - í u - ů u - ú
y - ý

vokalické kvalitativní:

a - ě e - ě e - o ou - u á - í
á - o é - í é - o i - e í - ě
í - e ů - o e - 0 o - 0

konsonantické jednoduché:

c - č d - ď d - z d - ž g - z
g - ž h - c h - z h - ž ch - š
k - c k - č n - ň r - ř s - š
t - c t - s t - ť z - ž

konsonantické skupinové:

ck - čt sk - sc sk - št sl - šl st - šť

alternacje samogłoskowe – Typ I:

a - e o - e ó - e

alternacje samogłoskowe – Typ II:

e – 0 0 - i 0 - y a - 0 o - 0
ą - ę ó - o

alternacje samogłoskowe – Typ III:

o - a ó - a e - a 0 - i 0 – e
a - 0

alternacje spółgłoskowe proste:

k - k' g - g' ch - ch' b - b' p - p'
w - w' f - f' m - m' n - ń ł - l
r - rz t - ć d - dź s - ś z - ź
k – cz g - ż ch - sz t - c d - dz
s - sz z – ż k - c g - dz ch - ś
ć - c dź - dz ś - sz ź - ż c - cz
dz - ż

alternacje spółgłoskowe złożone:

st - ść zd - źdź sk - szcz zg - żdż st - szcz
zd - żdż sk - sc zg - zdz ść - szcz źdź - żdż

patskaņi (kvantitāte):

e - ē i - ī u - ū

patskaņi (kvalitāte):

a - e a - ē a - o ā - ē ā - u
ā - au e - i e - ie ē - i ē - o
ē - ie i - ai i - ei i - ie ī - ai
ī - ie ū - au ai - ie

līdzskaņi:

b - bj c - č d - s d - z d - ž
d - 0 f - fj g - dz g - ģ k - c
k - ķ l - ļ m - mj n - ņ p - pj
s - š s - z s - 0 š - t š - z
t - s t - š t - z t - 0 v - vj
z - ž z - 0

līdzskaņu grupas:

dz - dž lk - ļķ ln - ļņ ng - ņģ nk - ņķ
nn - ņņ sk - šķ sl - šļ sn - šņ st - š
zl - žļ zn - žņ