Karakter

A számítástechnika és a számítógép alapú telekommunikáció szóhasználatában a karakter az információ egy egysége (ez nagyjából egybeesik a graféma értelmezésével) vagy a természetes nyelv írott nyelvi formájának egy szimbóluma.

Például karakter egy betű, szám vagy elválasztó jel, valamint a speciális karakterek, mint például a %,$, @ stb. Megegyezés szerint karakternek számítanak a vezérlőkarakterek, amelyek ugyan nincsenek kapcsolatban a természetes nyelvekkel, viszont információt hordoznak a nyomtatott forma feldolgozásánál és/vagy megjelenítésénél, különösen nyomtatók vagy más megjelenítők esetében.

Karakterkódolás

Bővebben: Karakterkódolás

A számítógépek és a kommunikációs berendezések a különböző karaktereket kódolt formában karakterkódokként kezelik, azaz minden karakterhez hozzárendelnek valamit – tipikusan egy egészet, ahol a mennyiséget bitek sorozatával határozzák meg – hogy a tárolás vagy a hálózaton keresztüli továbbítás egyszerűen megoldható legyen. A legtöbbet használt kódolási rendszer az ASCII kódolás, ennél sokoldalúbb a Unicode rendszer, ami gyorsan népszerű lett.

Míg a számítástechnikában használatos karakterkódtáblák a karaktereket számokká és/vagy bitsorozatokká alakítják, addig a távíró karakterek (morzekód) továbbítása különböző hosszúságú elektromos impulzusok sorozatával történik.

Meghatározás

Történetileg a karakter kifejezés széles körben használt volt a műszaki tudományok egyes területein, főként kódolt karakter értelemben (gyakran csak programozási nyelveknél használt APIt jelentette). Ugyancsak széles körben használt volt a karakterkészlet kifejezés is, mint absztrakt karakterek halmazának a bizonyos megjelenése, amelyeket különböző kódtáblák rögzítettek. A Unicode és a bit-orientált kódolási formák megjelenése sokkal precízebb meghatározást igényel.

Fontos, hogy ugyanabban a környezetben különbséget tegyünk a karakter mint az információ egysége és annak sajátos fizikai megjelenése között. Például az álef („א”) mint a héber ábécé egy betűje a matematikusok számára gyakran jelöli bizonyos végtelenek egy csoportját, de használják rendes héber nyelvű szövegben is. A Unicode megkülönbözteti az eltérő jelentéseket, két különböző karakterként értelmezi és eltérő kóddal azonosítja a „különböző” karaktereket. Ellenkezőleg viselkedik a vizet jelentő kínai szókép („水”) esetében. Egy japán szövegben – azonos megjelenése ellenére – kicsit különböző jelentéssel bír a szókép, mint egy kínai szövegben. Ennek ellenére a Unicode azonosnak tekinti a jelentést: egy kód és egy megjelenési forma tartozik hozzá.

Egy speciális kifejezés, a glifa jelenti a karakter fizikai megjelenítését. A legtöbb számítógép által használt font tulajdonképpen glifákat tartalmaz, a Unicode azokból választja ki a kódolt karakter megjelenési formáját.

A Unicode közösen meghatározást ad a karakterre és az absztrakt karakterre egyaránt, a The Unicode Standard és az ISO/IEC 10646 szabvány szerint ez „az adat szervezésére, ellenőrzésére vagy megjelenítésére használt elemek halmazának egy tagja” Unicode-meghatározását kiegészíti egy magyarázó megjegyzés, miszerint arra kell biztatni az megjelenített „kép” olvasóját, hogy tegyen különbséget a karakterek, a grafémák, a glifák és egyebek között. A szabvány szintén különbséget tesz ezek között az absztrakt karakterek, valamint a kódolt karakterek és dekódolt karakterek között, hogy létrehozhassa azokat a párokat, amelyek a numerikus kódot és annak megjelenését összekapcsolják a számítógépben.

Kapcsolódó szócikk

String

Külső, idegen nyelvű hivatkozások

ISO/IEC TR 15285:1998 összefoglalja az ISO/IEC karakter modelljét, a karakterek és glifák közötti különbségek terminológiai meghatározására fókuszál

Informatikai portál • összefoglaló, színes tartalomajánló lap