编码格式 · Android应用开发知识仓库

[TOC] # ASCII 编码 ASCII 码一共规定了 128个字符的编码，只占用了一个字节的后面 7 位，最前面的一位统一规定为 0。 ## 标准表可参见[百度百科](https://baike.baidu.com/item/ASCII)。 # Unicode Unicode 是一个很大的集合，将世界上所有的符号都纳入其中，每一个符号都给予一个独一无二的编码。 Unicode 是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。 ## 标准表 [中日韩汉字 Unicode 编码表](http://www.chi2ko.com/tool/CJK.htm) [Unicode 字符列表](https://zh.wikipedia.org/wiki/Unicode%E5%AD%97%E7%AC%A6%E5%88%97%E8%A1%A8#%E5%9F%BA%E6%9C%AC%E6%8B%89%E4%B8%81%E5%AD%97%E6%AF%8D) # UTF-8 UTF-8 是 Unicode 的实现方式之一，即规定了如何存储。比如：严的 Unicode 是 4E25，按 UTF-8 来编码为 E4B8A5。 UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用 1~4 个字节表示一个符号，根据不同的符号而变化字节长度。 ## 编码规则 * 对于单字节的符号，字节的第一位设为 0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的 * 对于 n 字节的符号（n > 1），第一个字节的前 n 位都设为 1，第 n + 1 位设为 0，后面字节的前两位一律设为 10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码 ```plain Unicode符号范围 | UTF-8编码方式 (十六进制) | （二进制） ----------------------+--------------------------------------------- 0000 0000-0000 007F | 0xxxxxxx 0000 0080-0000 07FF | 110xxxxx 10xxxxxx 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx 0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx ``` http://wiki.xuchongyang.com/Java/%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86%E7%82%B9.html ## 示例严的 Unicode 是 4E25（100111000100101），根据上表，可以发现 4E25 处在第三行的范围内（0000 0800 - 0000 FFFF），因此严的 UTF-8 编码需要三个字节，即格式是1110xxxx 10xxxxxx 10xxxxxx。然后，从严的最后一个二进制位开始，依次从后向前填入格式中的 x，多出的位补 0。这样就得到了，严的 UTF-8 编码是 11100100 10111000 10100101，转换成十六进制就是 E4B8A5 参考链接 [字符编码笔记：ASCII，Unicode 和 UTF-8](http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html)