UTF-8-MAC とは[編集] UTF-8-MAC とは、Mac OS X に付属する iconv にて利用できる文字エンコードの一つで、 Normalization Form D (NFD) で符号化した UTF-8 のことを指します。 一般に UTF-8 とだけいった場合には、Normalization Form C (NFC) でエンコードされたものを意味します。 Unicode 標準では、NFC は正規結合(Canonical Composition)、 NFD は正規分解(Canonical Decomposition)として規定されています。 たとえば、「が」の字を NFC で表現すると U+304C (HIRAGANA LETTER GA) ですが、 NFD では U+304B U+3099 (HIRAGANA LETTER KA + COMBINING KATAKANA-
Unicode にはいろいろと特徴があるのですが、その中の 1 つに正規化というものがあります。 これを理解するにはまず互換文字と、正規等価と互換等価を理解しなくてはいけないわけですが、私もよく分かっていません ^^;; Impress の Internet Watch の連載記事「文字の海、ビットの舟」の特別編 24, 25 や貞廣氏の「使いこなそうユニコード」の「Unicode 正規化とは」などをご覧ください。 あっ、原典にあたりたい人には Unicode Standard Annex #15: Unicode Normalization Forms をご覧ください。 で、簡単にいえば「が」を「か」+「゛」としてあつかえるということらしいです。この場合は本当に等しいかどうかといわれれば等しくないわけですね。 で、文字としてちゃんと等しい場合を正規等価、前述の例のような場合を互換等価とい
2008年6月11日 U+FFFD (REPLACEMENT CHARACTER) は便利 UnicodeにはU+FFFD (REPLACEMENT CHARACTER �) という便利な特殊文字があります。 Unicode 5.1では次のように定義されています: used to replace an incoming character whose value is unknown or unrepresentable in Unicodeこの文字を使うことで、従来悩まされてきた、いわゆる「文字化け」の問題に対抗することができます。 れっきとしたUnicode文字なので、XMLドキュメントで使用可能うまく扱えない文字であったことを、クライアントに意思表示することができるブラウザでもレンダリング可能Perl 5.8以降でのEncode.pmでは、decodeできなかった文字をデフォルトでU
「Unicode IVS/IVD入門」刊行記念セミナー http://kokucheese.com/event/index/74447/ 小形さんがセミナー当日の昼、「電話でMSの担当者にIVS実装のインタビューをした」と連投。ほとんど間をおかずにセミナーが開催。IVS本では分からなかった「MSのIVSに対する姿勢」がようやく明らかにされました。
漢字の話とアラビア文字/インド系文字の話が混在してすみません。 現在Unicodeは実用されている文字をほとんど符号化して、新規の追加文字は昔の文字が大きな比重を占めています。複雑な用字系の表示環境も整って特殊絵文字で皆遊んでいる。しかし10年ほど前には全然状況は違っていたわけで……。
Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。 特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。 そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。 なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ
現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日本語に特化して作られたわけではないので、日本の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第4回・第5回に引き続き、第6回も、漢字とUnicodeの関係です。 まずは「晴」(U+6674)のIVSを見てみましょう。 何だか妙な感じですね。同じ「晴」が<U+6674 U+E0100>と<U+6674 U+E0103>に、同じ「晴」が<U+6674 U+E0101>と<U+6674 U+E0102>に、それぞれダブって収録されているように見えます。実際そうなのです
現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日本語に特化して作られたわけではないので、日本の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、最初はASCII・Latin1とUnicodeの関係です。 Unicodeの最初の128文字(U+0000~U+007F、コード表参照)には、ASCIIという文字コードがそのまま収録されています。Unicodeは元々アメリカ生まれなので、アメリカでの標準的な文字コードであるASCII (American Standard Code for Information Inte
世の中には姓名にちょっとでも違う字を使うとうるさく言う奴がいて、そんなこんなでUnicodeに字形切り替えの仕組みが備わった。これをIVSという。特に「ナベ」さんはうるさかったらしく、字形も沢山登録された。 上の図はUnicodeに登録されている異体字リスト(IVD:http://unicode.org/ivd/data/2007-12-14/IVD_Charts.pdf*1)から引っ張ってきた。実は上に挙げたのは一部である。日本人しか使わない、日本人のための表である。ああ素晴らしい( ´∀`)。 こういう規格が何で出てきたのかとか、以下のサイトが詳しかった。 IVSとフォントの関係 - ちくちく日記 IVSとGSUBはどう違うのか - Mac OS Xの文字コード問題に関するメモ ともかく、私も日曜フォントプログラマーとして、フォント内部のIVS構造がどうなっているのかを話したい。 仕様
2011/9/22に開催された、IVS技術促進協議会主催のセミナー「UnicodeとIVSの基礎について」の @ogwata さんによる中継をまとました。
著者の小林龍生さんよりご恵贈いただきました。ありがとうございます。 ユニコード戦記 ─文字符号の国際標準化バトル 作者: 小林龍生出版社/メーカー: 東京電機大学出版局発売日: 2011/06/10メディア: 単行本購入: 7人 クリック: 466回この商品を含むブログ (20件) を見る 内容も、語り口も、すばらしくおもしろかった、と言いたい。内容の一部は著者本人から直接聞いたことがあるものもあるし、すでに読んだことがある原稿の再録もあったりするのだが、それらも含めておもしろかった。 もっとも、文字コード関連の知識を多少なりとも持っていないと、「ISO/IEC JTC1/SC2/WG2/IRG」のようなメダパニ系呪文にやられてしまうかもしれない。逆に文字コードに詳しい人のなかでも、Unicodeの現状に不満を持っている人にとっては、規格制定側からの言い訳にしか読めないかもしれない。私の場
InDesign�ˤ�����ݿ���Unicode�����CID���б� は有効な WikiName ではありません。 2024-06-25 RecentDeleted 2024-06-15 「Adobe InDesign CS2を選択する25の理由」の評価 2023-01-02 モリサワ基本2書体 2022-11-23 文字クラス 2022-06-16 第37期DTPエキスパート認証更新試験問題/印刷の再現技術 2022-05-27 ご意見など 2022-05-17 このWikiについて 2022-02-25 CS Acrobat 7新機能ガイドについて 2021-12-20 planetdtpconfig 2017-08-04 抗菌印刷.com 2017-07-07 紙製什器.com 2016-09-09 エフ・ビー・エム やまもと印刷工業(東京営業所) パッケージファクトリー
UnicodeのIVS(Ideographic Variation Sequence)は、漢字を表すUnicodeの直後に Variation Selectorと呼ばれるコードを付加し、漢字の「異体字」を表現する方法だ。IVSによって、従来よりも多くの字体が利用可能になる反面、データの「名寄せ」が困難になる恐れもある。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、IVSの利点と懸念すべきポイントを解説する。(日経コンピュータ) 筆者がITproに「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」を寄稿してから約1年が経って、IVSに新たな動きがあった。常用漢字表の改正(2010年11月30日)に前後して、4195字のIVSが追加されると同時に、IVS技術促進協議会が発足したのだ。IVSの拡大によって、これまでフォント切り換えでしか
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く