タグ

UTF-8に関するC_Lのブックマーク (3)

  • UTF-8にもいろいろある - ザリガニが見ていた...。

    前回からの続き。 改行コードの違いを体感してみる - ザリガニが見ていた...。 文字エンコードとロケールを体感する - ザリガニが見ていた...。 改行コードの違いも知った。文字コードとロケール、ターミナルの言語環境との関係も知った。これで文字にまつわる悩みとはおさらばできると思ったら、まだダメだった...。 実験環境 OSX 10.8 Mountain Lion以前((OSX 10.9 Mavericksでは、Mac仕様なNFDのUTF-8を表示しようとするとエラーになってしまったため、10.8以前の環境で実験した。Assertion failed: (width > 0), function conv_c, file /SourceCache/shell_cmds/shell_cmds-175/hexdump/conv.c, line 137. ** ** Abort trap: 6

    UTF-8にもいろいろある - ザリガニが見ていた...。
    C_L
    C_L 2013/11/25
    sed $'s/\xef\xbb\xbf//g'の $'~' 表記はbashの機能ね。手許のCentOS 6.4のsedだと$'~' はいらなかった。ちなみにUTF-8BOM付ファイル探すのはbash上で grep -e $'\xef\xbb\xbf' *.php とかでいける。
  • utf8なテキストをコマンドプロンプトで表示する - もぎゃろぐ

    rails勉強会のときに、「windowsrailsを入れた場合、ログをコマンドプロンプトで見ると日語が化けるよね」というような話がありました。 railsは素人ですが、そんな話ならお役に立てます(笑) 右(下)のようになればよいわけですよね? 手順。 ・コマンドプロンプトの左上のアイコンをクリックして、プロパティでフォントを日フォントにする ・chcp 65001 でコードページをutf8にする。 出来上がり。お役に立てば幸いです。

  • UTF-8 vs. ISO-10646 : 404 Blog Not Found

    2006年03月11日13:07 カテゴリLightweight Languages一日一行野郎 UTF-8 vs. ISO-10646 これだとLiberalなUTF-8ですね。 [を] UTF-8 の文字にマッチする正規表現 UTF-8の文字にマッチする正規表現の素直版。 新旧、というのか、LiberalなUTF-8とStrictなUTF-8の違いは、RFC2044とRFC2279を見ればはっきりします。要はU+11000より上を認めるかどうかということです。今のところUnicode.orgの定義では、U+0000 - U+10FFFF しか認めていないので、そちらの定義に従うと、むしろこの正規表現はさらに短く $RE_UTF8CHAR_STRICT = qr/(?:[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}

    UTF-8 vs. ISO-10646 : 404 Blog Not Found
  • 1