Bigram
Vzhled
Bigram či digram je posloupnost dvou sousedících prvků v řetězci tokenů, typicky písmen, slabik nebo slov. Bigram je n-gram pro n=2. Frekvenční distribuce každého bigramu v řetězci se běžně používá pro jednoduchou statistickou analýzu textu v mnoha aplikacích včetně počítačové lingvistiky, kryptografie, rozpoznávání řeči a podobně.[1]
Využití
[editovat | editovat zdroj]Bigramy jsou používány v nejúspěšnějších jazykových modelech pro rozpoznávání řeči. Jsou speciálním typem n-gramu.
Bigramové frekvenční útoky mohou být použity v kryptografii k luštění kryptogramů.
Bigramová frekvence je jedním ze způsobů statistické jazykové identifikace.
Reference
[editovat | editovat zdroj]V tomto článku byl použit překlad textu z článku Bigram na anglické Wikipedii.
- ↑ Bigram. docs.informatica.com [online]. [cit. 2022-10-31]. Dostupné v archivu pořízeném z originálu dne 2022-10-31.
Externí odkazy
[editovat | editovat zdroj]- Obrázky, zvuky či videa k tématu bigram na Wikimedia Commons