タグ

文字と文字コードに関するmohnoのブックマーク (14)

  • デジタル庁、氏名の文字7万に集約 行政システム効率化 - 日本経済新聞

    市区町村の基幹的な業務で使う文字の基準が2026年度をメドに統一される。今まで様々な氏名や住所の漢字に対応するため各自治体が独自ルールを定めており、デジタル化の障害になっていた。デジタル庁は国として策定した標準ルールの普及に力を入れる。政府は自治体システムの仕様統一を進めており、その前提として、基幹業務システムにおける共通化した文字ルールの適用を促す。アルファベットを使う欧米と異なり、日

    デジタル庁、氏名の文字7万に集約 行政システム効率化 - 日本経済新聞
    mohno
    mohno 2025/01/06
    「文字7万に集約」←65535は超えるのか(←オイ)「市区町村の基幹的な業務で使う文字の基準が2026年度をメドに統一される」
  • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

    まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

    ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
    mohno
    mohno 2023/12/20
    「Unicodeには、1999年のバージョン3.0でビルマ文字が収録された」「2005年にWindows XPで…」「2008年のUnicode 5.1で…」「2019年に国が正式に…」←ほぼ今世紀の話で驚く。公用語/文字がこのレベルの国、どれくらいあるんだろう。
  • 絵文字を支える技術について|nona

    はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleAndroidTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

    絵文字を支える技術について|nona
    mohno
    mohno 2023/12/03
    うわ、すげぇ。/というか、こういうことを考えるのが嫌だから文字コードをちゃんと扱う仕事はしたくないんだよね(←オイ)/Unicode言っとけば済んだ時代が懐かしい(←そんな時代があったのかはさておき)(←オイ)
  • アイヌ語仮名「ㇷ゚」に対する正規表現の罠

    導入 アイヌ語は日語と異なり、閉音節(子音で終わる音節)も存在するので、表記の際音素文字であるラテン文字なら、そのまま p, t, k, m, n, s, r などの子音文字を後ろの付ければ良いわけなので、アイヌ語ローマ字表記では、何も問題が生じない。しかし、元々開音節言語である日語に特化したカタカナのような仮名文字で表記する際、鼻音 n は「ン」でなんとかなる(実はそれでもまずい事になっているけどここでは割愛する)が、p, t, k, m, n, s, r, h はどうしようもないので、特殊の捨て仮名(小書き仮名文字)を利用することになっている。 具体的には以下のような特殊仮名文字(通称 アイヌ語仮名)である。 ㇷ゚ -p ッ -t ㇰ -k ㇺ -m ㇱ -s ㇻ -(a)r, ㇼ -(i)r, ㇽ -(u)r, ㇾ -(e)r, ㇿ -(o)r お分かり頂けただろうか… 問題 r

    アイヌ語仮名「ㇷ゚」に対する正規表現の罠
    mohno
    mohno 2023/09/01
    (ぅゎぁ……文字コード関わりたくねぇ……)
  • 文字コード | 衆議院議員 河野太郎公式サイト

    2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

    文字コード | 衆議院議員 河野太郎公式サイト
    mohno
    mohno 2023/05/11
    「文字情報基盤」←“Moji Joho kiban”で「MJ」ってこと?すごい略称だな。/「同じ文字に違うコードが割り振られているということが普通に起きてしまいました」←引越し(転入/転出)のたびに自治体が苦労するのか。
  • 「コカ・コーラ」ではなく「コカ・コーラ」?間違えやすい企業や商品の「正式名称」調べてみた | おたくま経済新聞

    ■ 特に誤認されがち「大文字小文字」「清音濁音」系 こうした話題の時に、まず真っ先に名前が上がる企業と言えば「キヤノン」「シヤチハタ」「キユーピー」といった、大文字小文字の誤認系。 これは全体の文字バランスを考慮し、来小文字である表記を大文字にしたという理由が主である模様。なお発音する際は、「キャノン」「キューピー」「シャチハタ」と小文字で読むのが正です。ちなみにタレントの「中川翔子」さんの名は「しょうこ」ではなく「しようこ」が正しい表記となります。 続けて「ビックカメラ」「ブルドックソース」といった清音濁音系。「ビッグ」「ブルドッグ」という単語があるため勘違いしてしまいがちですが、両社とも濁らないのが正しい表記です。 ■ 発音のしやすさによる誤認や思わぬパターンも また「サイゼリヤ」「バーミヤン」は「サイゼリア」や「バーミアン」と呼ばれがち。企業名ではありませんがゲームの「ファイアー

    「コカ・コーラ」ではなく「コカ・コーラ」?間違えやすい企業や商品の「正式名称」調べてみた | おたくま経済新聞
    mohno
    mohno 2023/04/27
    「「真ん中の中黒が半角」となるのが正式な表記」←オイ、ヤメロ。「ただし公式でもWEBなどでは全角が使われることがあり」
  • 外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】

    外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】
    mohno
    mohno 2020/03/04
    メモ帳のUTF-8化って、割と最近だよね。Windowsの国際化意識が「もう少し遅ければ」UnicodeじゃなくUTF-8が標準になったかもしれないのにね。(←一瞬Javaの方が先?と思ったけど、NTの方が早いよね?)
  • [PDF]新元号名で使用する文字コードについて(周知)(平成31年4月5日経済産業省事務連絡)

    mohno
    mohno 2019/04/16
    「「令」の文字…U+F9A8 に互換漢字「令」が割り当てられていますが、U+F900 – U+FA0B のブロックは、韓国の文字コード規格 KS X 1001との往復変換を可能にするためにのみ追加された…新元号における使用は推奨されません」
  • 新元号 「令」の字に複数の形 どれが本当? | NHKニュース

    新しい元号の「令和」の「令」の字は、パソコンなどの書体によって字の形が異なることから、書体を開発している会社では、顧客からの問い合わせへの対応について検討を始めています。一方、文化庁は正解や決まりはないと話しています。 主に▼3画目が横棒、5画目が縦棒とする書き方と、 ▼3画目も5画目も斜めの点のようにする場合があるということです。 この会社では、およそ1500種類の書体を取り扱っていて、新しい元号の発表を受けて、書体のデザイン担当の社員たちが集まり、「令」の字が書体によってどのように異なるか確認していました。 そのうえで、顧客から問い合わせがあった場合の対応について、形は異なっても同じ字なので問題ないことを説明することや選択できるようにしたいという要望があった場合には、特注で対応が可能なのかといったことについて検討を始めていました。 書体を開発する「モリサワ」のフォントデザイン部の阪

    新元号 「令」の字に複数の形 どれが本当? | NHKニュース
    mohno
    mohno 2019/04/01
    「正解や決まりはない」←その方が困るよね。まあ、U+4EE4を使えばいいんだろうけれど。
  • Unicode 12.0正式版が登場。日本語では小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が追加。新元号が発表され次第、次の12.1で新元号キャラクタを追加

    Unicode 12では4つの言語(script)、554種類の文字が追加されました。これによりUnicodeに収録されている言語は150、文字は13万7292種類になりました。 追加された文字には日語の文字が7種類、小さな文字としての「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が含まれています(通常の大きさの文字は以前からありました)。これらは古い文書を記述するために使われるとされています。 そのほか、現在のイラン南西部に存在したアケメネス朝で使われていたアラム語のElymaic文字。南インドのサンスクリット語、カンナダ語で使われていたNandinagari文字。ラオス、タイ、ベトナム、フランス、オーストラリア、カナダ、米国などで使われていた現代White Hmong語、Green Hmong語のNyiakeng Puachue Hmong文字。インド、ミャンマー、ブータンの現代Wanc

    Unicode 12.0正式版が登場。日本語では小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が追加。新元号が発表され次第、次の12.1で新元号キャラクタを追加
    mohno
    mohno 2019/03/07
    「新元号を表す新キャラクタが入る余裕は、既存の元号の周辺にはありません」「少し離れたところに1文字分空いていた「U+32FF」に新元号のキャラクタを入れる」「新元号が発表され次第…Unicode 12.1をリリース」
  • char8_tによせて - なるせにっき

    C++標準化委員会、ついに文字とは何かを理解する: char8_tという記事が話題だってので、つらつらと書いてみました。 「グリフ」について グリフ(glyph)という言葉の定義をめぐって でも触れられていますが、「グリフ」という言葉が「字体」を指すのか「字形」を指すのかってのは議論がありますね。文字コードの文脈では普通「字形」の意味だとして話を進めることが多いように思います。 CJK統合漢字について Wikipediaの記事にまとまっていますが、実際に推進していたのは中国みたいですね。うまくやればあんまり問題なかったんでしょうが、あんまりうまく行かなかったんですが、それでも国ごとにその国の過去にあった文字コードとの互換性は取れているので、実際の所CJK統合漢字ってあんまり問題にはなってないと思うんですよね。中国フォントと日フォントを切り替えないといけないって問題はありますけど、それ

    char8_tによせて - なるせにっき
    mohno
    mohno 2018/12/24
    「wchar_tにUnicode以外の何かを詰めたコードは世の中に多数存在する」←もともとC/C++自体は文字コードとは独立していて、そこは実装依存だったよな。サロゲートペアの処理が大変なのが“型”で楽になるわけじゃないし。
  • C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方 当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。 お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - c

    C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
    mohno
    mohno 2018/12/23
    そこまでしてC/C++を使う人がどれだけいるかなあ。「C標準では文字を受け取る引数はint型」←そこは引数がcharでも内部はintだったり、オーバーロードがない時代という歴史的経緯があるので。負債というならShift_JIS。
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    mohno
    mohno 2017/11/13
    「固定長にしたければ、すごく無駄は多くなるけど1文字を常に4バイト」であらわせないものもあるしねぇ→ https://lets-emoji.com/emojilist/emojilist-26/ ←「1文字」とはナンなんだと。Unicode までで勘弁して、って感じ^_^;
  • JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

    Intro textarea などに入力された文字数を、JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID の

    JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
    mohno
    mohno 2017/03/03
    Unicodeで文字の扱いが楽になったー、と思ったらサロゲートペアとか、どこのシフトJISだよ、と思ったなー。「👨‍👩‍👧‍👦…4 つの絵文字とそれを結合する制御文字」←Chrome だとまとめて表示される、すげぇ:-D
  • 1