タグ

文字コードに関するuturiのブックマーク (15)

  • 外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】

    外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】
    uturi
    uturi 2020/03/04
    ExcelがSJISからUnicodeに変わらないと無理でしょ
  • ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ

    とある会員制掲示板からの文書の流出に困った運営者が、ユニコードの見えない文字「ゼロ幅文字(Zero-Width characters)」を使って流出させたユーザーを特定した、という話が出ていました。 数年前の話、Tom さんが所属していた競技ビデオゲームのチームでは、ログインが必要なプライベートの掲示板を使って連絡していました。その掲示板に書かれた秘密情報や戦術に関する重大アナウンスなどがしばしば掲示板外のウェブにコピペされ、チームにとって大きな問題となっていたそうです。 外部ユーザーの攻撃で中身が漏れたというよりは、メンバーの誰かがコピーしているのでは、と考えた Tom さんは、当時気になっていたユニコードのゼロ幅文字を使ったトリックを仕掛けたそうです。 ユーザーを特定する情報を、見えない文字に変換して埋め込む ログイン中のログインユーザーのユーザーIDを、一定のルールによってゼロ幅文字

    ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ
    uturi
    uturi 2018/04/10
    ゼロ幅文字というバグみたいな文字があるのに驚いた。サロゲートペアとも違うってことでしょ?
  • コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

    語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。 中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。 このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進め

    コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
    uturi
    uturi 2017/12/25
    “「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類あります” 多過ぎ。/Unicodeとの互換性がどうなるかが気になる。
  • 絵文字を支える技術の紹介 - Qiita

    絵文字を扱う上で知っておくと良いかもしれないことをまとめてみました。 Ruiさんの記事を見て、「EmojiはSurrogate Pair以外にも、色々とおもしろい技術があるんですよ〜」思って書いてみました。 なお、書いた人はAndroidの人間なので、特に表記していない場合は主にAndroid上での動作のことを書いてます。 またQiita初めてなので読みにくい部分等がありましてもご容赦ください。 サロゲートペア(Surrogate Pairs) このエントリーを書くきっかけにもなったサロゲートペア。なぜこれが導入されたかの経緯は、Ruiさんのブログエントリーに譲るとして、技術的な解説をします。 サロゲートペアは、U+0000..U+FFFFに収まりきらなかった範囲のUnicodeコードポイント(U+10000..U+10FFFF)を、なんとか16bitでエンコードしようとして導入されました

    絵文字を支える技術の紹介 - Qiita
    uturi
    uturi 2017/11/16
    人+色で肌色を変えるとか、男性+ペイントで男性画家とかパズルちっくな仕様だな。実装する方は大変そうだ。Webサイトの文字入力判定とかで大混乱してそう。
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    uturi
    uturi 2017/11/14
    絵文字ってサロゲートペアを使ってたのか! Macで作った日本語がウィンドウズだと変な表示されててイラッとさせられることでお馴染みのサロゲートペアを!!
  • グーグル、大急ぎでハンバーガー絵文字を修正へ - BBCニュース

    グーグルのスンダル・ピチャイ最高経営責任者(CEO)は先月30日、週明けに出勤してきた従業員たちにある重大な目標を大急ぎで達成するよう指示したらしい。ハンバーガーの絵文字を修正せよ。これが使命だった。 ピチャイCEOの指示は、作家トーマス・ベクダル氏のツイートに反応してのものだった。ベクダル氏は、IT企業2社のハンバーガー絵文字が違うと、その相違点を指摘していた。 溶けたチーズが流れ出るようにチーズがらみのダジャレも飛び交うなか、この絵文字をめぐって、非常に「肉厚」な議論が繰り広げられた。ポイントはつまり、ハンバーガーにおけるチーズの適正な位置。チーズはどこにあるべきなのか。

    グーグル、大急ぎでハンバーガー絵文字を修正へ - BBCニュース
    uturi
    uturi 2017/11/04
    ハンバーガーよりもビールの方が気になる。泡が浮いてんじゃん。
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
    uturi
    uturi 2017/03/13
    冒頭で紹介された例にも驚くが、フォントが異なると別の文字として扱われる文字もあるのか。Unicodeこわい。
  • Rubyの内部文字コードはUTF-8ではない...だと...?!|TechRacho by BPS株式会社

    こんにちは、hachi8833です。 少し前に、babaさんから「Rubyの内部文字コードはUTF-8じゃないよ」とツッコミがありました。 (追記: 上は会話の途中から切り取りましたのでご了承ください) いきなりの展開にくらくらきましたが、babaさんはさらにたたみかけます。 こうしたことはとっくにご存じの方も多いと思いますが、「Rubyといえば2.0以来UTF-8完全対応なんじゃないの」と勝手に思い込んでた私は脳に掌底をらったような思いです。ああ、でもこういうことがあるから面白い。 ⚓ プログラミング言語と内部文字コードの関係 まず最初に押さえておきたい点です。プログラミング言語で文字コードに関連する部分は、「文字列」「正規表現」「入出力」「コード中の文字リテラル(""の中など)」「コード中の文字リテラル以外の要素(変数名など)」「ファイル名」などが中心になります。そして文字列に関連し

    Rubyの内部文字コードはUTF-8ではない...だと...?!|TechRacho by BPS株式会社
    uturi
    uturi 2016/10/14
    文字列だけ特殊であってそれ以外はバイナリで問題ないだろという設計なのか。なるほど。
  • 作家さんが「コレ使えますか?」と聞いてきたナゾの記号の正体に驚きの声「そんな名前だったのか」「使い方は?」

    稀見理都@「エロマンガ表現史」発売中! @kimirito えええ〜〜今の編集さんはこれを知らないのかと、逆に衝撃(;゚∀゚)=3 ま、確かに使わないけどw https://t.co/SSIwnzNVxK 2016-09-26 23:44:18 リンク ニコニコ大百科 記号BA-90とは (キゴウビーエーキューゼロとは) [単語記事] - ニコニコ大百科 記号BA-90とは、顔である。 概要 別名 FULL MOON WITH FACE、顔付満月などの名前がある。 来は天文学・占星術で満月を示す記号である。 歴史 意外にもこの記号の歴史は...

    作家さんが「コレ使えますか?」と聞いてきたナゾの記号の正体に驚きの声「そんな名前だったのか」「使い方は?」
    uturi
    uturi 2016/09/28
    こち亀のタイトルに使われてたような。占星術で使う記号だったのか。
  • Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション | hydroculのメモ

    Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション 2015/06/18 Unicodeにある文字の中からハイフンのような横棒と波線を集めてみました。複数あるのはわかっていたつもりでしたが、こんなにたくさんあるとは思いませんでした。 横線に関しては、ハイフンや長音符(カタカナの長音記号)、罫線など、線が横に延びているものです。縦方向や斜めの線は除きます。ほとんど横線だけどほんのちょっとだけ斜め(主観)になっているものは含みます。点線や矢印、線が2つ以上に分かれているものは除きます。途中で曲がっているものも除きます。横線が上の方だったり下の方だったり、太さが途中で変わるものも含めています。 波線に関しては、横方向の線が、直線ではなくS字カーブになっているもので、縦や斜めのS字を除きます。 S字カーブを超えて複雑な曲線も除いています。ただ、文字の名前に “wave” と

    uturi
    uturi 2015/06/10
    ウォアアアアア
  • 漢数字が数字順にソートされない理由を調べてみた - give IT a try

    はじめに:「なぜ漢数字は数字順に並ばない!?」 先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。(執筆時点で50件以上) 「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— Junichi Ito (伊藤淳一) (@jnchito) 2014年11月27日 「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。 いや、もちろんそれはわかってるんです。 問題は「そもそもなんで数字順に文字コードを振らなかったの!?」ということです。 感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」

    漢数字が数字順にソートされない理由を調べてみた - give IT a try
    uturi
    uturi 2014/12/04
    九の部首って乙だったのか。/漢数字って数字のように使えるけど、結局はただの漢字だからなぁ。そもそもソートキーに使うつもりなかったんだろうし。
  • 全角チルダ問題

    9. 参考) 確かめかた (Windows の場合) • 確かめたい文字をコピーします。 • WordPad を起動し、コピーした文字を貼り付けます。 • 確かめたい文字を一文字選択し、ALT + X を押します。 • コード (UCS-4) が表示されます。 • U+301C が波ダッシュ • U+FF5E が全角チルダ 10. 基礎知識1) チルダとは何か? • こういうやつらしい。 ÃÕÑ • 鼻音に関する音をあらわす、ダイアクリティカルマークの一種 • ダイアクリティカルマークってこんなやつら (よくしらない) À Á Â Ä Å Ă Ą Ā http://ja.wikipedia.org/wiki/%E3%83%80%E3%82%A4%E3%82%A2%E3%82%AF%E3%83%AA%E3%83 %86%E3%82%A3%E3%82%AB%E3%83%AB%E3%83%9E%

    全角チルダ問題
    uturi
    uturi 2014/07/07
    恐ろしい……。ただ表示させるだけならともかく、名前によるマッチングとかパスワード管理とか考えるとぞわぞわする。サロゲート文字や結合文字といい、Unicodeってややこし過ぎる。
  • 誕生日に一人で仕事しながら見ると元気が出る「ユ・鬣`、ホ・、・゚・ニゥ`・キ・逾?ホユ」5選 - 自省log

    先日以下のような記事を書きまして 誕生日に片思いの相手から電話がかかってきた。 - 自省log 要約すると 誕生日に片想いの人から電話があって、うぉおおおお!ってなってうぉおおおおおおお!!!ってなった 話で、おかげ様でたくさんの方にご覧いただいた次第でございます。皆さんその切はありがとうございました。 ただ上記記事を投下した5月24日(私の誕生日)はなんだか休日出勤を余儀なくされておりまして、何故誕生した日に一人さみしく休日出勤しなければいけないのか。なんて毒付きながら半べそかいておりましてね。 そんな自分へのご褒美を買うべく、Amazonで「馬のたてがみ」と検索したら、「ユ・鬣`、ホ・、・゚・ニゥ`・キ・逾ホユ」みたいな商品が出てきまして、すごく元気になりましたので日は皆さんにもおすそ分けすることにしました。 誕生日に一人で仕事しながら見ると元気が出る「ユ・鬣`、ホ・、・゚・ニゥ`

    誕生日に一人で仕事しながら見ると元気が出る「ユ・鬣`、ホ・、・゚・ニゥ`・キ・逾?ホユ」5選 - 自省log
    uturi
    uturi 2014/05/28
    Unicodeで四苦八苦してる俺にとっては迂闊に見ちゃいけない記事だった
  • キャリア6社の絵文字がついに統一

    uturi
    uturi 2014/04/25
    今更かよ。/こんなに遅いからLINEに全部持ってかれるんだよ。キャリア間での問題が起きてから15年ぐらい経つだろ。生きてたのか?
  • 「ユニコードは犯罪だからやめてください」の衝撃 - yanok.net

    新年早々、大笑いしてしまったこと。 下らないといえば下らないので書くまでもないかと思ったのですが、後で忘れた頃に読み返すと面白いかもしれないので書きとめておくことにします。 何があったのかは下記のページに詳しく書かれてあります。こちらを読んでいただければ、ぶっちゃけそれ以上のことはないです。 「LINEウイルス」の正体とは―LINE内で流行する「ウイルス攻撃」の現状について 簡単にまとめていうと、 LINE上で「ウイルス」なるものを送りつけることができるという噂があって、実際にそれを送りつけられるとLINEのアプリが誤動作(重くなる)らしい 実際のところ、ここで「ウイルス」と呼ばれているものはある特定の文字列である (プログラムではない。であるからしてウイルスでもない) 特定の文字列を受け取ると動作が極端に重くなる不具合のあるアプリがある、というのが真相らしい 問題を引き起こす文字列は、U

    uturi
    uturi 2014/01/11
    関係ないけど、S-JISでデータよこせって言ってるのにUnicodeで送られたときは殺意を覚えましたね
  • 1