CJKV
CJKV は、中国語・日本語・朝鮮語・ベトナム語 (英: Chinese-Japanese-Korean-Vietnamese) の略。特に、その四言語で共通して使われる、または使われていた文字体系である漢字(チュノムを含む)のこと。ソフトウェアの国際化、中でも文字コードに関する分野で用いられる。
比較的早くに漢字を廃止し、漢字に含めるべきか諸説あるチュノムを擁するベトナム語を除いた中国語、日本語、朝鮮語の頭文字だけをとって CJK と呼ぶこともある。主な東アジアの書記系を総称するときに用いられる。用語の使用頻度は CJKV より CJK のほうが多いが、CJK と言いながら実際は CJKV について述べていることも多い。
特徴
編集マルチバイト文字
編集中国語・日本語・朝鮮語をコンピュータで扱う場合、英数字とプログラミングや操作に使われる記号に加え、漢字・平仮名・片仮名・ハングルが必要となる。これらの文字集合は、欧米の言語の多くが用いているようなアルファベットとは異なり、1 バイト (8ビット) で表現できる文字の総数を大きく越えている。このため、これらの言語ではマルチバイト文字を使うことになる。
文字の入力
編集漢字・平仮名・片仮名・ハングル(特に漢字)は文字集合が大きいので、すべての文字をキーボードに直接割り当てると巨大なものとなり、習得は難しくなってしまう。そのため現在では、英字キーボード、もしくはそれにいくつかのキーを追加したキーボードとソフトウェアによるインプットメソッドを使用して入力することが一般的である。そのためには入力先となるソフトウェアが、使用しているインプットメソッドに対応している必要がある。
漢字を用いる日本語と中国語では、読みを入力してソフトウェアで変換を行い、目的の表記を得る種類のインプットメソッドが一般的である(Microsoft IME、Google 日本語入力、ATOK、SKK など)。読みによるインプットメソッドは、さらに変換の区切りによって漢字 1 文字を単位とする単漢字変換、漢字熟語と助詞で構成される文節の並びを単位とする連文節変換などに分けられる。中国語では文字全体の形状の分類と一部の筆画を与えて漢字を特定する五筆字型輸入法など、字の構造に基づくインプットメソッドも使われている[1]。 朝鮮語のインプットメソッドでは、ハングルを構成する要素であるチャモ(字母)単位で入力を行う方法が一般的である[2]。
組版
編集主に紙面上の文書を作る際、CJKV では欧米言語と異なる組版の方法が必要になる。
縦書き(縦組み)はその一つである。コンピュータのテキスト表示および処理は元来横書きであったが、CJK/CJKV のテキストは伝統的に縦書きであるため、組版では縦書きへの対応が求められる。その際には単に縦に表示するだけではなく、文字の間隔や配置を縦書き対応にしなければならない[3]。
また、CJKV の組版では縦組み、横組みのどちらであっても、正方形で構成される格子上に文字を配置する機能が求められる。これは、漢字・平仮名・片仮名・ハングルなど CJKV 特有の文字の大半が、正方形に合う字形を持つためである。しかし、一部の記号やラテン文字はそうでないため、それらが混在する文書では縦書き用文字への置き換えなど、複雑な処理が必要になる[4]。
CJKV に適用できる組版規則を定めた規格としては、JIS X 4051-1995 (2004年に改正)が知られている[5]。
文字コード規格
編集この節の加筆が望まれています。 |
Unicode
編集Unicode の CJK統合漢字は、ベトナムの符号化文字集合規格である TCVN 5773:1993 と TCVN 6056:1995 の漢字(チュニョとチュノム)も原規格として統合しており、実態は CJKV である。例えば、「U+7551 畑」には、日本語の国字の「畑」 (JIS X 0208-1990 の 482A) とチュノムの「畑」 (TCVN 5773:1993 の 3C2F) が統合されている。
脚注
編集- ^ ランディ(2002)、pp.231-237
- ^ ランディ(2002)、pp.266-267
- ^ ランディ(2002)、p.347
- ^ ランディ(2002)、p.349
- ^ ランディ(2002)、pp.341-343
参考文献
編集- ケン・ランディ『CJKV日中韓越情報処理』en:Ken Lunde(原著)、小松章・逆井克己(訳)、オライリー・ジャパン、2002年12月。ISBN 4-87311-108-0 。