0% found this document useful (0 votes)

6 views

Unicode与UTF 8的区别

what is different between unicode and utf8

Uploaded by

2966231784

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views

Unicode与UTF 8的区别

what is different between unicode and utf8

Uploaded by

2966231784

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

原创 Unicode与UTF-8的区别

2018-09-01 22:18:00 Hern（宋兆恒）阅读数 7259 更多

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36761831/article/details/82291166

ASCII 编码
在计算机的世界里，信息的表示方式只有 0 和 1,但是我们人类信息表示的方式却与之大不相同，很多时候是用语言文字、图像、声音等传递信息的。

怎样将其转化为二进制存储到计算机中，这个过程我们称之为编码。更广义地讲就是把信息从一种形式转化为另一种形式的过程。

一个二进制有两种状态：”0” 状态和 “1”状态，那么它就可以代表两种不同的东西，想赋予它什么含义，就赋予什么含义，比如：“0” 代表 “吃过了”,

“1”代表 “还没吃”。这样就相当于把现实生活中的信息编码成二进制数字了，并且这个例子中是一位二进制数字，那么2位二进制数可以代表四种情况（2^2）
分别是 00、01、10、11，那么7种是2^7=128。

计算机中每八个二进制位组成了一个字节（Byte），计算机存储的最小单位就是字节，字节如下图所示：
早期人们用8位二进制来编码英文字母(最前面的一位是0)，也就是说，将英文字母和一些常用的字符和这128中二进制0、1串一一对应起来，比如：大写字
母“A”所对应的二进制位“01000001”，转换为十六进制为41。

在美国，这128是够了，但是其他国家不够，他们的字符和英文是有出入的，比如在法语中在字母上有注音符号，如 é 。所以各个国家就决定把字节中最前面未使用
的那一个位拿来使用，原来的128种状态就变成了256种状态，比如é就被编码成130（二进制的10000010）。

为了保持与ASCII码的兼容性，一般最高位为0时和原来的ASCII码相同，最高位为1的时候，各个国家自己给后面的位(1xxx xxxx)赋予他们国家的字符意义。

但是这样一来又有问题出现了，不同国家对新增的128个数字赋予了不同的含义，比如说130在法语中代表了é,但是在希伯来语中却代表了字母Gimel（这不是希伯
来字母，只是读音翻译成英文的形式）具体的希伯来字母Gimel看下图

所以这就成了不同国家有不同国家的编码方式，所以如果给你一串二进制数，想要解码，就必须知道它的编码方式，不然就会出现我们有时候看到的乱码。

Unicode码
Unicode为世界上所有字符都分配了一个唯一的数字编号，这个编号范围从 0x000000 到 0x10FFFF(十六进制)，有110多万，每个字符都有一个唯一的Unicode编
号，这个编号一般写成16进制，在前面加上U+。例如：“马”的Unicode是U+9A6C。

Unicode就相当于一张表，建立了字符与编号之间的联系
它是一种规定，Unicode本身只规定了每个字符的数字编号是多少，并没有规定这个编号如何存储。

有的人会说了，那我可以直接把Unicode编号直接转换成二进制进行存储，是的，你可以，但是这个就需要人为的规定了，而Unicode并没有说这样弄，因为除了这
种直接转换成二进制的方案外，还有其他方案，主要有UTF-8，UTF-16，UTF-32。（UTF-8、UTF-16、UTF-32……都是 Unicode编码的一种实现。）

1、UTF-32

这个就是字符所对应编号的整数二进制形式，四个字节，这个就是直接转换。比如：马的Unicode为：U+9A6C，那么直接转化为二进制，它的表示就为：1001
1010 0110 1100。

注意：转换成二进制后计算机存储的问题。计算机在存储器中排列字节有两种方式：大端法和小端法，大端法就是将高位字节放到底地址处，比如0x1234, 计算机用
两个字节存储，一个是高位字节0x12,一个是低位字节0x34，它的存储方式为下：
UTF-32用四个字节表示，处理单元为四个字节（一次拿到四个字节进行处理），如果不分大小端的话，那么就会出现解读错误，比如我们一次要处理四个字节 12
34 56 78，这四个字节是表示0x12 34 56 78还是表示0x78 56 34 12 ，不同的解释最终表示的值不一样。

我们可以根据他们高低字节的存储位置来判断他们所代表的含义，所以在编码方式中有 UTF-32BE 和 UTF-32LE ，分别对应大端和小端，来正确地解释多个字节

（这里是四个字节）的含义。

2、UTF-16

UTF-16使用变长字节表示

① 对于编号在U+0000到U+FFFF的字符（常用字符集），直接用两个字节表示。
② 编号在 U+10000到U+10FFFF之间的字符，需要用四个字节表示。

同样，UTF-16 也有字节的顺序问题（大小端），所以就有UTF-16BE表示大端，UTF-16LE表示小端。

3、UTF-8

UTF-8就是使用变长字节表示,顾名思义，就是使用的字节数可变，这个变化是根据 Unicode 编号的大小有关，编号小的使用的字节就少，编号大的使用的字节就

多。使用的字节个数从1到4个不等。
UTF-8的编码规则：

① 对于单字节的符号，字节的第一位设为0，后面的7位为这个符号的Unicode码，因此对于英文字母，UTF-8编码和ASCII码是相同的。

② 对于n字节的符号（n>1）,第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10，剩下的没有提及的二进制位，全部为这个符号的
Unicode码。

举个例子：比如说一个字符的Unicode编码是130，显然按照UTF-8的规则一个字节是表示不了它（因为如果是一个字节的话前面的一位必须是0），所以需要两个
字节(n = 2)。

根据规则，第一个字节的前 2 位都设为1，第3(2+1)位设为0，则第一个字节为：110X XXXX，后面字节的前两位一律设为10，后面只剩下一个字节，所以后面的字

节为：10XX XXXX。所以它的格式为110XXXXX 10XXXXXX 。

Unicode编号范围与对应的UTF-8二进制格式：

对于一个具体的Unicode编号，具体进行UTF-8的编码的方法：

首先找到该Unicode编号所在的编号范围，进而可以找到与之对应的二进制格式，然后将该Unicode编号转化为二进制数（去掉高位的0），最后将该二进制数从右
向左依次填入二进制格式的X中，如果还有X未填，则设为0 。

比如：“马”的Unicode编号是：0x9A6C,整数编号是39532，对应第三个范围（2048 - 65535），其格式为：1110XXXX 10XXXXXX 10XXXXXX，39532 对应的

二进制是 1001 1010 0110 1100，将二进制填入进入就为： 11101001 10101001 10101100 。
由于UTF-8的处理单元为一个字节（也就是一次处理一个字节），所以处理器在处理的时候就不需要考虑这一个字节的存储是在高位还是在低位，直接拿到这个字节
进行处理就行了，因为大小端是针对大于一个字节的数的存储问题而言的。

CHARACTER ENCODING: How Do Computers Deal With Multiple Language?
No ratings yet
CHARACTER ENCODING: How Do Computers Deal With Multiple Language?
26 pages
Comdex .NET 4.5 Programming Course Kit
0% (1)
Comdex .NET 4.5 Programming Course Kit
1 page
Howto Unicode
No ratings yet
Howto Unicode
12 pages
Unicode in C++ - McNellis - CppCon 2014
No ratings yet
Unicode in C++ - McNellis - CppCon 2014
125 pages
Unicode CPP PDF
No ratings yet
Unicode CPP PDF
139 pages
Unicode vs UTF-8
No ratings yet
Unicode vs UTF-8
2 pages
018 Repraesentation III Online
No ratings yet
018 Repraesentation III Online
46 pages
What's The Difference Between ASCII and Unicode - Stack Overflow
No ratings yet
What's The Difference Between ASCII and Unicode - Stack Overflow
15 pages
Lecture - ASCII and Unicode
No ratings yet
Lecture - ASCII and Unicode
38 pages
Coding Systems - ASCII and Unicode
No ratings yet
Coding Systems - ASCII and Unicode
23 pages
Lec 6
No ratings yet
Lec 6
17 pages
Ruby Conf 2006: I18N, M17N, Unicode, and All That
No ratings yet
Ruby Conf 2006: I18N, M17N, Unicode, and All That
60 pages
Introduction To Unicode: History of Character Codes
No ratings yet
Introduction To Unicode: History of Character Codes
4 pages
Text, Sound & Images
No ratings yet
Text, Sound & Images
48 pages
Unicode HOWTO: Guido Van Rossum and The Python Development Team
No ratings yet
Unicode HOWTO: Guido Van Rossum and The Python Development Team
12 pages
I Love Unicode Softshake
No ratings yet
I Love Unicode Softshake
78 pages
Unicode and Character Sets
No ratings yet
Unicode and Character Sets
2 pages
Unicode Better Explained
No ratings yet
Unicode Better Explained
5 pages
Maxbox Starter120 Unicode
No ratings yet
Maxbox Starter120 Unicode
7 pages
Short Notes On ASCII
100% (1)
Short Notes On ASCII
16 pages
Binary Representation
No ratings yet
Binary Representation
18 pages
Unicode in C and C
No ratings yet
Unicode in C and C
8 pages
Howto Unicode
No ratings yet
Howto Unicode
12 pages
1.3 Data Storage - Part 1
No ratings yet
1.3 Data Storage - Part 1
15 pages
Howto Unicode PDF
No ratings yet
Howto Unicode PDF
13 pages
Unicode HOWTO: Guido Van Rossum and The Python Development Team
No ratings yet
Unicode HOWTO: Guido Van Rossum and The Python Development Team
13 pages
kibi kilo ASCII
No ratings yet
kibi kilo ASCII
2 pages
Howto Unicode
No ratings yet
Howto Unicode
13 pages
10200
No ratings yet
10200
38 pages
Lec 1c - Character Representation
No ratings yet
Lec 1c - Character Representation
11 pages
Howto Unicode PDF
No ratings yet
Howto Unicode PDF
11 pages
Howto Unicode
No ratings yet
Howto Unicode
9 pages
Fa24-Bcs-090-C-Assignment No2.ict
No ratings yet
Fa24-Bcs-090-C-Assignment No2.ict
6 pages
Chapter 4 Computer Codes
No ratings yet
Chapter 4 Computer Codes
30 pages
Power Point
No ratings yet
Power Point
10 pages
Unicode Fundamentals
No ratings yet
Unicode Fundamentals
51 pages
Difference Between Binary and ASCII
No ratings yet
Difference Between Binary and ASCII
1 page
FE B Sol
No ratings yet
FE B Sol
3 pages
Ascii VS Unicode
No ratings yet
Ascii VS Unicode
2 pages
ASCII Is The American Standard Code For International Interchange
No ratings yet
ASCII Is The American Standard Code For International Interchange
1 page
Encoding Schemes and Number System (PDF 4)
No ratings yet
Encoding Schemes and Number System (PDF 4)
20 pages
Working With Unicode
No ratings yet
Working With Unicode
19 pages
03 - Unicode Characters and Strings - en
No ratings yet
03 - Unicode Characters and Strings - en
4 pages
Char Ascii Binary
No ratings yet
Char Ascii Binary
5 pages
Computer Codes
No ratings yet
Computer Codes
28 pages
Ascii and Unicode
No ratings yet
Ascii and Unicode
6 pages
Lecture#11#12_CSE_1012(4)
No ratings yet
Lecture#11#12_CSE_1012(4)
30 pages
Cstring Management: Joseph M. Newcomer
No ratings yet
Cstring Management: Joseph M. Newcomer
17 pages
2c-Data Types 1
No ratings yet
2c-Data Types 1
15 pages
t04 Programming Principle
No ratings yet
t04 Programming Principle
58 pages
Machine Level Representation of Data Character Representation
No ratings yet
Machine Level Representation of Data Character Representation
14 pages
1521 Lec 9 - Unicode
No ratings yet
1521 Lec 9 - Unicode
46 pages
US1MACSC01
No ratings yet
US1MACSC01
30 pages
Week VI
No ratings yet
Week VI
13 pages
Computer Codes
No ratings yet
Computer Codes
22 pages
ASCII1
No ratings yet
ASCII1
12 pages
Top Networking Terms You Should Know
From Everand
Top Networking Terms You Should Know
JOHN SMITH
No ratings yet
Network Engineering - The Essential Handbook
From Everand
Network Engineering - The Essential Handbook
W.J Bickerstaffe
No ratings yet
Encryption Demystified The Key to Securing Your Digital Life
From Everand
Encryption Demystified The Key to Securing Your Digital Life
A. Scholtens
No ratings yet
Learn How to Earn with Cryptocurrency Trading
From Everand
Learn How to Earn with Cryptocurrency Trading
Donald Keyn
3.5/5 (3)
Speed of Light Communications and the Internet Protocol (IP)
From Everand
Speed of Light Communications and the Internet Protocol (IP)
Dimitrios Voutsinas
4/5 (1)
ZKAccess3 5 3
No ratings yet
ZKAccess3 5 3
17 pages
GCBASIC Command Guide
100% (1)
GCBASIC Command Guide
9 pages
Data Types, Operators, and Expressions: For Multiple-Choice and Essay Questions
No ratings yet
Data Types, Operators, and Expressions: For Multiple-Choice and Essay Questions
6 pages
Internet of Things Professional Elective Course - Iv
No ratings yet
Internet of Things Professional Elective Course - Iv
2 pages
Office of The Government Chief Information Officer
No ratings yet
Office of The Government Chief Information Officer
18 pages
Group 08 SPM LAB Assignment 02
No ratings yet
Group 08 SPM LAB Assignment 02
3 pages
cs311 Update Handout
No ratings yet
cs311 Update Handout
22 pages
SOA Interview Questions
No ratings yet
SOA Interview Questions
49 pages
BW SANetworkServerModule5 R120
No ratings yet
BW SANetworkServerModule5 R120
72 pages
SBC - Troubleshooting Guide-21.8
No ratings yet
SBC - Troubleshooting Guide-21.8
110 pages
DBMS Insurance Database 12
No ratings yet
DBMS Insurance Database 12
14 pages
WIEN2k Installation
No ratings yet
WIEN2k Installation
12 pages
Capstone 850 Int
No ratings yet
Capstone 850 Int
2 pages
25 04 19 Scheme&Syllabus B Tech CSE 2018
No ratings yet
25 04 19 Scheme&Syllabus B Tech CSE 2018
42 pages
Everywhere Transmitter: Design Study Report
No ratings yet
Everywhere Transmitter: Design Study Report
52 pages
OM022 3 Amplivox Otosure Desktop Operating Manual
No ratings yet
OM022 3 Amplivox Otosure Desktop Operating Manual
26 pages
Screenshot 2022-09-21 at 9.18.44 PM
No ratings yet
Screenshot 2022-09-21 at 9.18.44 PM
24 pages
(CCNA) Cisco Commands Cheat Sheet #2
No ratings yet
(CCNA) Cisco Commands Cheat Sheet #2
5 pages
Install Oracle RAC Database 12c R1 On Oracle Linux 6.4
No ratings yet
Install Oracle RAC Database 12c R1 On Oracle Linux 6.4
14 pages
Service Manual: 17" LCD Monitor Dell E176Fpc
No ratings yet
Service Manual: 17" LCD Monitor Dell E176Fpc
73 pages
MS Access-Creating Table
No ratings yet
MS Access-Creating Table
52 pages
Toward End To End Latency Management of 5G Network Slicin 2023 Optical Fiber
No ratings yet
Toward End To End Latency Management of 5G Network Slicin 2023 Optical Fiber
9 pages
Matplotlib Cheat Sheet
100% (6)
Matplotlib Cheat Sheet
8 pages
How To Add ViewAttribute in ViewObject (VO) Dynamically
No ratings yet
How To Add ViewAttribute in ViewObject (VO) Dynamically
3 pages
String Interview Questions Java by Prashant 1669017681
No ratings yet
String Interview Questions Java by Prashant 1669017681
22 pages
The Orbis Pictus of John Amos Comenius
No ratings yet
The Orbis Pictus of John Amos Comenius
245 pages
DBMS Language.7
No ratings yet
DBMS Language.7
3 pages
How To Setup Employee Directory
No ratings yet
How To Setup Employee Directory
3 pages

Unicode与UTF 8的区别

Uploaded by

Unicode与UTF 8的区别

Uploaded by

原创 Unicode与UTF-8的区别

2018-09-01 22:18:00 Hern（宋兆恒）阅读数 7259 更多

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

一个二进制有两种状态：”0” 状态和 “1”状态，那么它就可以代表两种不同的东西，想赋予它什么含义，就赋予什么含义，比如：“0” 代表 “吃过了”,

我们可以根据他们高低字节的存储位置来判断他们所代表的含义，所以在编码方式中有 UTF-32BE 和 UTF-32LE ，分别对应大端和小端，来正确地解释多个字节

UTF-8就是使用变长字节表示,顾名思义，就是使用的字节数可变，这个变化是根据 Unicode 编号的大小有关，编号小的使用的字节就少，编号大的使用的字节就

根据规则，第一个字节的前 2 位都设为1，第3(2+1)位设为0，则第一个字节为：110X XXXX，后面字节的前两位一律设为10，后面只剩下一个字节，所以后面的字

比如：“马”的Unicode编号是：0x9A6C,整数编号是39532，对应第三个范围（2048 - 65535），其格式为：1110XXXX 10XXXXXX 10XXXXXX，39532 对应的

©2019 CSDN 皮肤主题: skin-shark 设计师: CSDN官方博客

You might also like

Unicode与UTF 8的区别

Uploaded by

Unicode与UTF 8的区别

Uploaded by

原创 Unicode与UTF-8的区别

2018-09-01 22:18:00 Hern（宋兆恒） 阅读数 7259 更多

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

一个二进制有两种状态：”0” 状态 和 “1”状态，那么它就可以代表两种不同的东西，想赋予它什么含义，就赋予什么含义，比如：“0” 代表 “吃过了”,

我们可以根据他们高低字节的存储位置来判断他们所代表的含义，所以在编码方式中有 UTF-32BE 和 UTF-32LE ，分别对应大端和小端，来正确地解释多个字节

UTF-8就是使用变长字节表示,顾名思义，就是使用的字节数可变，这个变化是根据 Unicode 编号的大小有关，编号小的使用的字节就少，编号大的使用的字节就

根据规则，第一个字节的前 2 位都设为1，第3(2+1)位设为0，则第一个字节为：110X XXXX，后面字节的前两位一律设为10，后面只剩下一个字节，所以后面的字

比如：“马”的Unicode编号是：0x9A6C,整数编号是39532，对应第三个范围（2048 - 65535），其格式为：1110XXXX 10XXXXXX 10XXXXXX，39532 对应的

©2019 CSDN 皮肤主题: skin-shark 设计师: CSDN官方博客

You might also like

2018-09-01 22:18:00 Hern（宋兆恒）阅读数 7259 更多

一个二进制有两种状态：”0” 状态和 “1”状态，那么它就可以代表两种不同的东西，想赋予它什么含义，就赋予什么含义，比如：“0” 代表 “吃过了”,