原文:[字符集和字符编码(Charset & Encoding)](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html)
原作者:[吴秦(Tyler)](http://www.cnblogs.com/skynet/)
*——每个软件开发人员应该无条件掌握的知识!*
*——Unicode伟大的创想!*
相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如"бЇЯАзЪСЯ"、"�????????"?还记得HTTP中的Accept-Charset、Accept-Encoding、Accept-Language、Content-Encoding、Content-Language等消息头字段?这些就是接下来我们要探讨的。
目录:
* [1.基础知识](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_1.基础知识)
* [2.常用字符集和字符编码](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_2.常用字符集和字符编码)
* [2.1\. ASCII字符集&编码](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_2.1._ASCII字符集&ASCII编码)
* [2.2\. GBXXXX字符集&编码](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_2.2._GBXXXX字符集&编码)
* [2.3\. BIG5字符集&编码](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_2.3._BIG5字符集&编码)
* [3.伟大的创想Unicode](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_3.伟大的创想Unicode)
* [3.1.UCS & UNICODE](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_3.1.UCS_&_UNICODE)
* [3.2.UTF-32](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_3.2.UTF-32)
* [3.3.UTF-16](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_3.3.UTF-16)
* [3.4.UTF-8](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_3.4.UTF-8)
* [4.Accept-Charset/Accept-Encoding/Accept-Language/Content-Type/Content-Encoding/Content-Language](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_4.Accept-Charset/Accept-Encoding/Ac)
* [参考文献&进一步阅读](http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_参考文献&进一步阅读)
# 1.基础知识
计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二进制数转换之后的结果。通俗的说,按照何种规则将字符存储在计算机中,如'a'用什么表示,称为"编码";反之,将存储在计算机中的二进制数解析显示出来,称为"解码",如同密码学中的加密和解密。在解码过程中,如果使用了错误的解码规则,则导致'a'解析成'b'或者乱码。
**字符集(Charset)**:是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
**字符编码(Character Encoding)**:是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。即在符号集合与数字系统之间建立对应关系,它是信息处理的一项基本技术。通常人们用符号集合(一般情况下就是文字)来表达信息。而以计算机为基础的信息处理系统则是利用元件(硬件)不同状态的组合来存储和处理信息的。元件不同状态的组合能代表数字系统的数字,因此字符编码就是将符号转换为计算机可以接受的数字系统的数,称为数字代码。
# 2.常用字符集和字符编码
常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。
## 2.1\. ASCII字符集&编码
**ASCII**(**A**merican **S**tandard **C**ode for **I**nformation **I**nterchange,**美国信息交换标准代码**)是基于[拉丁字母](http://zh.wikipedia.org/wiki/%E6%8B%89%E4%B8%81%E5%AD%97%E6%AF%8D)的一套[电脑](http://zh.wikipedia.org/wiki/%E7%94%B5%E8%84%91 "电脑")[编码](http://zh.wikipedia.org/wiki/%E7%BC%96%E7%A0%81)系统。它主要用于显示[现代英语](http://zh.wikipedia.org/wiki/%E7%8F%BE%E4%BB%A3%E8%8B%B1%E8%AA%9E "现代英语"),而其扩展版本[](http://zh.wikipedia.org/wiki/EASCII)EASCII则可以勉强显示其他[西欧](http://zh.wikipedia.org/wiki/%E8%A5%BF%E6%AC%A7)[语言](http://zh.wikipedia.org/wiki/%E8%AF%AD%E8%A8%80)。它是现今最通用的单[字节](http://zh.wikipedia.org/wiki/%E5%AD%97%E8%8A%82)编码系统(但是有被[](http://zh.wikipedia.org/wiki/Unicode)Unicode追上的迹象),并等同于国际标准[](http://zh.wikipedia.org/wiki/ISO/IEC_646)**ISO/IEC 646**。
**ASCII字符集**:主要包括控制字符(回车键、退格、换行键等);可显示字符(英文大小写字符、阿拉伯数字和西文符号)。
**ASCII编码**:将ASCII字符集转换为计算机可以接受的数字系统的数的规则。使用7位(bits)表示一个字符,共128字符;但是7位编码的字符集只能支持128个字符,为了表示更多的[欧洲](http://baike.baidu.com/view/3622.htm)常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。ASCII字符集映射到数字编码规则如下图所示:
![](https://box.kancloud.cn/2016-01-19_569dd03c460ec.png)
图1 ASCII编码表
![](https://box.kancloud.cn/2016-01-19_569dd03c81840.png)
图2 扩展ASCII编码表
ASCII的最大缺点是只能显示26个基本拉丁字母、阿拉伯数字和英式标点符号,因此只能用于显示现代美国英语(而且在处理英语当中的外来词如naïve、café、élite等等时,所有重音符号都不得不去掉,即使这样做会违反拼写规则)。而EASCII虽然解决了部份西欧语言的显示问题,但对更多其他语言依然无能为力。因此现在的苹果电脑已经抛弃ASCII而转用[Unicode](http://zh.wikipedia.org/wiki/Unicode)。
## 2.2\. GBXXXX字符集&编码
计算机发明之后的很长一段时间,只用应用于美国及西方一些发达国家,ASCII能够很好满足用户的需求。但是当天朝也有了计算机之后,为了显示中文,必须设计一套编码规则用于将汉字转换为计算机可以接受的数字系统的数。
天朝专家把那些127号之后的奇异符号们(即EASCII)取消掉,规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到 0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,还把数学符号、罗马希腊的 字母、日文的假名们都编进去了,连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。
上述编码规则就是**GB2312**。**GB2312**或**GB2312-80**是[中国国家标准](http://zh.wikipedia.org/wiki/%E4%B8%AD%E5%8D%8E%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9B%BD%E5%9B%BD%E5%AE%B6%E6%A0%87%E5%87%86 "中华人民共和国国家标准")[简体中文](http://zh.wikipedia.org/wiki/%E7%AE%80%E4%BD%93%E4%B8%AD%E6%96%87)[字符集](http://zh.wikipedia.org/wiki/%E5%AD%97%E7%AC%A6%E9%9B%86 "字符集"),全称《**信息交换用汉字编码字符集·基本集**》,又称[**GB0**](http://zh.wikipedia.org/wiki/%E5%9B%BD%E5%AE%B6%E6%A0%87%E5%87%86%E4%BB%A3%E7%A0%81 "国家标准代码"),由[中国国家标准总局](http://zh.wikipedia.org/w/index.php?title=%E4%B8%AD%E5%9B%BD%E5%9B%BD%E5%AE%B6%E6%A0%87%E5%87%86%E6%80%BB%E5%B1%80&action=edit&redlink=1 "中国国家标准总局")发布,[1981年](http://zh.wikipedia.org/wiki/1981%E5%B9%B4)[5月1日](http://zh.wikipedia.org/wiki/5%E6%9C%881%E6%97%A5)实施。GB2312编码通行于中国大陆;[新加坡](http://zh.wikipedia.org/wiki/%E6%96%B0%E5%8A%A0%E5%9D%A1)等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。对于[人名](http://zh.wikipedia.org/wiki/%E4%BA%BA%E5%90%8D)、[古汉语](http://zh.wikipedia.org/wiki/%E5%8F%A4%E6%B1%89%E8%AF%AD "古汉语")等方面出现的[罕用字](http://zh.wikipedia.org/wiki/%E7%BD%95%E7%94%A8%E5%AD%97),GB2312不能处理,这导致了后来[GBK](http://zh.wikipedia.org/wiki/GBK)及[GB 18030](http://zh.wikipedia.org/wiki/GB_18030)汉字字符集的出现。下图是GB2312编码的开始部分(由于其非常庞大,只列举开始部分,具体可查看[GB2312简体中文编码表](http://www.knowsky.com/resource/gb2312tbl.htm)):
![](https://box.kancloud.cn/2016-01-19_569dd03ca41d7.png)
图3 GB2312编码表的开始部分
由于[GB 2312-80](http://zh.wikipedia.org/wiki/GB_2312 "GB 2312")只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如"啰"),部分人名用字(如中国前总理[朱镕基](http://zh.wikipedia.org/wiki/%E6%9C%B1%E9%95%95%E5%9F%BA)的"镕"字),台湾及香港使用的[繁体字](http://zh.wikipedia.org/wiki/%E7%B9%81%E4%BD%93%E4%B8%AD%E6%96%87 "繁体中文"),[日语](http://zh.wikipedia.org/wiki/%E6%97%A5%E8%AF%AD)及[朝鲜语](http://zh.wikipedia.org/wiki/%E9%9F%93%E8%AA%9E "韩语")汉字等,并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。根据[微软](http://zh.wikipedia.org/wiki/%E5%BE%AE%E8%BD%AF)资料,GBK是对GB2312-80的扩展,也就是[*CP936*](http://zh.wikipedia.org/w/index.php?title=CP936&action=edit&redlink=1 "CP936")*字码表 (Code Page 936)*的扩展(之前CP936和GB 2312-80一模一样),最早实现于[Windows 95](http://zh.wikipedia.org/wiki/Windows_95)简体中文版。虽然GBK收录[GB 13000.1-93](http://zh.wikipedia.org/wiki/GB_13000 "GB 13000")的全部字符,但编码方式并不相同。GBK自身并非国家标准,只是曾由[国家技术监督局](http://zh.wikipedia.org/wiki/%E5%9B%BD%E5%AE%B6%E6%8A%80%E6%9C%AF%E7%9B%91%E7%9D%A3%E5%B1%80 "国家技术监督局")标准化司、[电子工业部](http://zh.wikipedia.org/wiki/%E7%94%B5%E5%AD%90%E5%B7%A5%E4%B8%9A%E9%83%A8 "电子工业部")科技与质量监督司公布为"技术规范指导性文件"。原始GB13000一直未被业界采用,后续国家标准[GB18030](http://zh.wikipedia.org/wiki/GB18030 "GB18030")技术上兼容GBK而非GB13000。
**GB 18030**,全称:[国家标准](http://zh.wikipedia.org/wiki/%E4%B8%AD%E5%8D%8E%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9B%BD%E5%9B%BD%E5%AE%B6%E6%A0%87%E5%87%86 "中华人民共和国国家标准")GB 18030-2005《信息技术 中文编码字符集》,是[中华人民共和国](http://zh.wikipedia.org/wiki/%E4%B8%AD%E5%8D%8E%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9B%BD)现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。与[GB 2312-1980](http://zh.wikipedia.org/wiki/GB_2312 "GB 2312")完全兼容,与[GBK](http://zh.wikipedia.org/wiki/GBK)基本兼容,支持[GB 13000](http://zh.wikipedia.org/wiki/GB_13000 "GB 13000")及[Unicode](http://zh.wikipedia.org/wiki/Unicode)的全部统一汉字,共收录汉字70244个。GB 18030主要有以下特点:
* 与[UTF-8](http://zh.wikipedia.org/wiki/UTF-8)相同,采用多[字节](http://zh.wikipedia.org/wiki/%E5%AD%97%E8%8A%82)编码,每个字可以由1个、2个或4个字节组成。
* 编码空间庞大,最多可定义161万个字符。
* 支持中国国内[少数民族](http://zh.wikipedia.org/wiki/%E5%B0%91%E6%95%B0%E6%B0%91%E6%97%8F)的文字,不需要动用造字区。
* 汉字收录范围包含繁体汉字以及日韩汉字
![](https://box.kancloud.cn/2016-01-19_569dd03cb4c5d.jpg)
图4 GB18030编码总体结构
本规格的初版使中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于[2000年](http://zh.wikipedia.org/wiki/2000%E5%B9%B4)[3月17日](http://zh.wikipedia.org/wiki/3%E6%9C%8817%E6%97%A5)发布。现行版本为国家质量监督检验总局和中国国家标准化管理委员会于[2005年](http://zh.wikipedia.org/wiki/2005%E5%B9%B4)[11月8日](http://zh.wikipedia.org/wiki/11%E6%9C%888%E6%97%A5)发布,[2006年](http://zh.wikipedia.org/wiki/2006%E5%B9%B4)[5月1日](http://zh.wikipedia.org/wiki/5%E6%9C%881%E6%97%A5)实施。此规格为在中国境内所有软件产品支持的强制规格。
## 2.3\. BIG5字符集&编码
**Big5**,又称为**大五码**或**五大码**,是使用[繁体中文](http://zh.wikipedia.org/wiki/%E7%B9%81%E4%BD%93%E4%B8%AD%E6%96%87)(正体中文)社区中最常用的电脑[汉字](http://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 "汉字")[字符集](http://zh.wikipedia.org/wiki/%E5%AD%97%E7%AC%A6%E9%9B%86 "字符集")标准,共收录13,060个汉字。中文码分为[内码](http://zh.wikipedia.org/wiki/%E5%85%A7%E7%A2%BC)及[交换码](http://zh.wikipedia.org/wiki/%E4%BA%A4%E6%8F%9B%E7%A2%BC)两类,Big5属中文内码,知名的中文交换码有[CCCII](http://zh.wikipedia.org/wiki/CCCII "CCCII")、[CNS11643](http://zh.wikipedia.org/wiki/CNS11643 "CNS11643")。Big5虽普及于[台湾](http://zh.wikipedia.org/wiki/%E5%8F%B0%E7%81%A3)、[香港](http://zh.wikipedia.org/wiki/%E4%B8%AD%E5%9C%8B%E9%A6%99%E6%B8%AF "中国香港")与[澳门](http://zh.wikipedia.org/wiki/%E4%B8%AD%E5%9C%8B%E6%BE%B3%E9%96%80 "中国澳门")等繁体中文通行区,但长期以来并非当地的国家标准,而只是[**业界标准**](http://zh.wikipedia.org/wiki/De_facto "De facto")。[倚天中文系统](http://zh.wikipedia.org/wiki/%E5%80%9A%E5%A4%A9%E4%B8%AD%E6%96%87%E7%B3%BB%E7%B5%B1)、[Windows](http://zh.wikipedia.org/wiki/Windows "Windows")等主要系统的字符集都是以Big5为基准,但厂商又各自增加不同的造字与造字区,派生成多种不同版本。[2003年](http://zh.wikipedia.org/wiki/2003%E5%B9%B4),Big5被收录到CNS11643中文标准交换码的附录当中,取得了较正式的地位。这个最新版本被称为Big5-2003。
Big5码是一套[双字节字符集](http://zh.wikipedia.org/wiki/%E5%8F%8C%E5%AD%97%E8%8A%82%E5%AD%97%E7%AC%A6%E9%9B%86 "双字节字符集"),使用了双八码存储方法,以两个字节来安放一个字。第一个字节称为"高位字节",第二个字节称为"低位字节"。"高位字节"使用了0x81-0xFE,"低位字节"使用了0x40-0x7E,及0xA1-0xFE。在Big5的分区中:
| **0x8140-0xA0FE**|**保留给用户自定义字符([造字](http://zh.wikipedia.org/wiki/%E9%80%A0%E5%AD%97)区)**|
|--|--|
| **0xA140-0xA3BF**|[**标点符号**](http://zh.wikipedia.org/wiki/%E6%A8%99%E9%BB%9E%E7%AC%A6%E8%99%9F"标点符号")**、[](http://zh.wikipedia.org/wiki/%E5%B8%8C%E8%85%8A%E5%AD%97%E6%AF%8D "希腊字母")希腊字母及特殊符号,包括在0xA259-0xA261,安放了九个[](http://zh.wikipedia.org/wiki/%E8%A8%88%E9%87%8F%E7%94%A8%E6%BC%A2%E5%AD%97)计量用汉字:兙兛兞兝兡兣嗧瓩糎。**|
| **0xA3C0-0xA3FE**| **保留。此区没有开放作造字区用。**|
| **0xA440-0xC67E**|[**常用汉字**](http://zh.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E6%BC%A2%E5%AD%97)**,先按[](http://zh.wikipedia.org/wiki/%E7%AD%86%E5%8A%83 "笔划")笔划再按[](http://zh.wikipedia.org/wiki/%E5%BA%B7%E7%86%99%E5%AD%97%E5%85%B8 "康熙字典")部首排序。**|
| **0xC6A1-0xC8FE**| **保留给用户自定义字符(造字区)**|
| **0xC940-0xF9D5**|[**次常用汉字**](http://zh.wikipedia.org/wiki/%E6%AC%A1%E5%B8%B8%E7%94%A8%E5%AD%97 "次常用字")**,亦是先按笔划再按部首排序。**|
| **0xF9D6-0xFEFE**| **保留给用户自定义字符(造字区)**|
Unicode字符集&UTF编码
# 3.伟大的创想Unicode
*——不得不单独说Unicode*
像天朝一样,当计算机传到世界各个国家时,为了适合当地语言和字符,设计和实现类似GB232/GBK/GB18030/BIG5的编码方案。这样各搞一套,在本地使用没有问题,一旦出现在网络中,由于不兼容,互相访问就出现了乱码现象。
为了解决这个问题,一个伟大的创想产生了——Unicode。Unicode编码系统为表达任意语言的任意字符而设计。它使用**4字节**的数字来表达每个字母、符号,或者表意文字(ideograph)。每个数字代表唯一的至少在某种语言中使用的符号。(并不是所有的数字都用上了,但是总数已经超过了65535,所以2个字节的数字是不够用的。)被几种语言共用的字符通常使用相同的数字来编码,除非存在一个在理的语源学(etymological)理由使之不这样做。不考虑这种情况的话,每个字符对应一个数字,每个数字对应一个字符。即不存在二义性。不再需要记录"模式"了。U+0041总是代表'A',即使这种语言没有'A'这个字符。
在[计算机科学](http://zh.wikipedia.org/wiki/%E9%9B%BB%E8%85%A6%E7%A7%91%E5%AD%B8 "计算机科学")领域中,**Unicode**(**统一码**、**万国码**、**单一码**、**标准万国码**)是业界的一种标准,它可以使电脑得以体现世界上数十种文字的系统。Unicode 是基于[通用字符集](http://zh.wikipedia.org/wiki/%E9%80%9A%E7%94%A8%E5%AD%97%E7%AC%A6%E9%9B%86 "通用字符集")(Universal Character Set)的标准来发展而来,并且同时也以书本的形式[[1]](http://zh.wikipedia.org/wiki/Unicode)对外发表。Unicode 还不断在扩增, 每个新版本插入更多新的字符。直至目前为止的第六版,Unicode 就已经包含了超过十万个[字符](http://zh.wikipedia.org/wiki/%E5%AD%97%E7%AC%A6)(在[2005年](http://zh.wikipedia.org/wiki/2005%E5%B9%B4),Unicode 的第十万个字符被采纳且认可成为标准之一)、一组可用以作为视觉参考的代码图表、一套编码方法与一组标准[字符编码](http://zh.wikipedia.org/wiki/%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81 "字符编码")、一套包含了上标字、下标字等字符特性的枚举等。Unicode 组织(The Unicode Consortium)是由一个非营利性的机构所运作,并主导 Unicode 的后续发展,其目标在于:将既有的字符编码方案以Unicode 编码方案来加以取代,特别是既有的方案在多语言环境下,皆仅有有限的空间以及不兼容的问题。
(**可以这样理解:Unicode是字符集,UTF-32/ UTF-16/ UTF-8是三种字符编码方案。**)
## 3.1.UCS & UNICODE
**通用字符集**(Universal Character Set,**UCS**)是由[ISO](http://zh.wikipedia.org/wiki/%E5%9C%8B%E9%9A%9B%E6%A8%99%E6%BA%96%E5%8C%96%E7%B5%84%E7%B9%94 "国际标准化组织")制定的**ISO 10646**(或称**ISO/IEC 10646**)标准所定义的标准字符集。历史上存在两个独立的尝试创立单一字符集的组织,即国际标准化组织(ISO)和多语言软件制造商组成的[统一码联盟](http://zh.wikipedia.org/wiki/%E7%B5%B1%E4%B8%80%E7%A2%BC%E8%81%AF%E7%9B%9F)。前者开发的 ISO/IEC 10646 项目,后者开发的[统一码](http://zh.wikipedia.org/wiki/%E7%B5%B1%E4%B8%80%E7%A2%BC "统一码")项目。因此最初制定了不同的标准。
[1991年](http://zh.wikipedia.org/wiki/1991%E5%B9%B4)前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。两个项目仍都存在,并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。在发布的时候,Unicode一般都会采用有关字码最常见的字型,但ISO 10646一般都尽可能采用[Century字型](http://zh.wikipedia.org/w/index.php?title=Century%E5%AD%97%E5%9E%8B&action=edit&redlink=1 "Century字型")。
## 3.2.UTF-32
上述使用4字节的数字来表达每个字母、符号,或者表意文字(ideograph),每个数字代表唯一的至少在某种语言中使用的符号的编码方案,称为UTF-32。UTF-32又称**UCS-4**是一种将[Unicode](http://zh.wikipedia.org/wiki/Unicode)字符编码的协定,对每个字符都使用4字节。就空间而言,是非常没有效率的。
这种方法有其优点,最重要的一点就是可以在常数时间内定位字符串里的第N个字符,因为第N个字符从第4×Nth个字节开始。虽然每一个码位使用固定长定的字节看似方便,它并不如其它Unicode编码使用得广泛。
## 3.3.UTF-16
尽管有Unicode字符非常多,但是实际上大多数人不会用到超过前65535个以外的字符。因此,就有了另外一种Unicode编码方式,叫做UTF-16(因为16位 = 2字节)。UTF-16将0–65535范围内的字符编码成2个字节,如果真的需要表达那些很少使用的"星芒层(astral plane)"内超过这65535范围的Unicode字符,则需要使用一些诡异的技巧来实现。UTF-16编码最明显的优点是它在空间效率上比UTF-32高两倍,因为每个字符只需要2个字节来存储(除去65535范围以外的),而不是UTF-32中的4个字节。并且,如果我们假设某个字符串不包含任何星芒层中的字符,那么我们依然可以在常数时间内找到其中的第N个字符,直到它不成立为止这总是一个不错的推断。其编码方法是:
* 如果字符编码U小于0x10000,也就是十进制的0到65535之内,则直接使用两字节表示;
* 如果字符编码U大于0x10000,由于UNICODE编码范围最大为0x10FFFF,从0x10000到0x10FFFF之间 共有0xFFFFF个编码,也就是需要20个bit就可以标示这些编码。用U'表示从0-0xFFFFF之间的值,将其前 10 bit作为高位和16 bit的数值0xD800进行 逻辑or 操作,将后10 bit作为低位和0xDC00做 逻辑or 操作,这样组成的 4个byte就构成了U的编码。
对于UTF-32和UTF-16编码方式还有一些其他不明显的缺点。不同的计算机系统会以不同的顺序保存字节。这意味着字符U+4E2D在UTF-16编码方式下可能被保存为4E 2D或者2D 4E,这取决于该系统使用的是大尾端(big-endian)还是小尾端(little-endian)。(对于UTF-32编码方式,则有更多种可能的字节排列。)只要文档没有离开你的计算机,它还是安全的——同一台电脑上的不同程序使用相同的字节顺序(byte order)。但是当我们需要在跨系统之间传输这个文档的时候,也许在万维网中,我们就需要一种方法来指示当前我们的字节是怎样存储的。不然的话,接收文档的计算机就无法知道这两个字节4E 2D表达的到底是U+4E2D还是U+2D4E。
为了解决这个问题,多字节的Unicode编码方式定义了一个"字节顺序标记(Byte Order Mark)",它是一个特殊的非打印字符,你可以把它包含在文档的开头来指示你所使用的字节顺序。对于UTF-16,字节顺序标记是U+FEFF。如果收到一个以字节FF FE开头的UTF-16编码的文档,你就能确定它的字节顺序是单向的(one way)的了;如果它以FE FF开头,则可以确定字节顺序反向了。
## 3.4.UTF-8
**UTF-8**(8-bit Unicode Transformation Format)是一种针对[Unicode](http://zh.wikipedia.org/wiki/Unicode)的可变长度[字符编码](http://zh.wikipedia.org/wiki/%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81 "字符编码")([定长码](http://zh.wikipedia.org/w/index.php?title=%E5%AE%9A%E9%95%BF%E7%A0%81&action=edit&redlink=1 "定长码")),也是一种[前缀码](http://zh.wikipedia.org/w/index.php?title=%E5%89%8D%E7%BC%80%E7%A0%81&action=edit&redlink=1 "前缀码")。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个[字节](http://zh.wikipedia.org/wiki/%E5%AD%97%E8%8A%82 "字节")仍与[ASCII](http://zh.wikipedia.org/wiki/ASCII)兼容,这使得原来处理ASCII字符的[软件](http://zh.wikipedia.org/wiki/%E8%BB%9F%E9%AB%94 "软件")无须或只须做少部份修改,即可继续使用。因此,它逐渐成为[电子邮件](http://zh.wikipedia.org/wiki/%E9%9B%BB%E5%AD%90%E9%83%B5%E4%BB%B6 "电子邮件")、[网页](http://zh.wikipedia.org/wiki/%E7%B6%B2%E9%A0%81)及其他[存储](http://zh.wikipedia.org/wiki/%E5%84%B2%E5%AD%98%E8%A3%9D%E7%BD%AE "存储设备")或传送文字的应用中,优先采用的编码。[互联网工程工作小组](http://zh.wikipedia.org/wiki/%E7%B6%B2%E9%9A%9B%E7%B6%B2%E8%B7%AF%E5%B7%A5%E7%A8%8B%E5%B7%A5%E4%BD%9C%E5%B0%8F%E7%B5%84 "互联网工程工作小组")(IETF)要求所有[互联网](http://zh.wikipedia.org/wiki/%E7%B6%B2%E9%9A%9B%E7%B6%B2%E8%B7%AF "互联网")[协议](http://zh.wikipedia.org/wiki/%E7%BD%91%E7%BB%9C%E5%8D%8F%E8%AE%AE "网络协议")都必须支持UTF-8编码。
UTF-8使用一至四个[字节](http://zh.wikipedia.org/wiki/%E5%AD%97%E8%8A%82 "字节")为每个字符编码:
1. 128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。
2. 带有[附加符号](http://zh.wikipedia.org/wiki/%E9%99%84%E5%8A%A0%E7%AC%A6%E5%8F%B7)的[拉丁文](http://zh.wikipedia.org/wiki/%E6%8B%89%E4%B8%81%E6%96%87 "拉丁文")、[希腊文](http://zh.wikipedia.org/wiki/%E5%B8%8C%E8%87%98%E6%96%87 "希腊文")、[西里尔字母](http://zh.wikipedia.org/wiki/%E8%A5%BF%E9%87%8C%E7%88%BE%E5%AD%97%E6%AF%8D "西里尔字母")、[亚美尼亚语](http://zh.wikipedia.org/wiki/%E4%BA%9E%E7%BE%8E%E5%B0%BC%E4%BA%9E%E8%AA%9E "亚美尼亚语")、[希伯来文](http://zh.wikipedia.org/wiki/%E5%B8%8C%E4%BC%AF%E4%BE%86%E6%96%87 "希伯来文")、[阿拉伯文](http://zh.wikipedia.org/wiki/%E9%98%BF%E6%8B%89%E4%BC%AF%E6%96%87 "阿拉伯文")、[叙利亚文](http://zh.wikipedia.org/wiki/%E5%8F%99%E5%88%A9%E4%BA%9A%E6%96%87 "叙利亚文")及[它拿字母](http://zh.wikipedia.org/wiki/%E5%AE%83%E6%8B%BF%E5%AD%97%E6%AF%8D)则需要二个字节编码(Unicode范围由U+0080至U+07FF)。
3. 其他[基本多文种平面](http://zh.wikipedia.org/wiki/%E5%9F%BA%E6%9C%AC%E5%A4%9A%E6%96%87%E7%A8%AE%E5%B9%B3%E9%9D%A2)(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。
4. 其他极少使用的Unicode[辅助平面](http://zh.wikipedia.org/wiki/%E8%BC%94%E5%8A%A9%E5%B9%B3%E9%9D%A2 "辅助平面")的字符使用四字节编码。
在处理经常会用到的ASCII字符方面非常有效。在处理扩展的拉丁字符集方面也不比UTF-16差。对于中文字符来说,比UTF-32要好。同时,由位操作的天性使然,使用UTF-8不再存在字节顺序的问题了,一份以utf-8编码的文档在不同的计算机之间是一样的比特流(在这一条上你得相信我,因为我不打算给你展示它的数学原理)。
总体来说,在Unicode字符串中不可能由码点数量决定显示它所需要的长度,或者显示字符串之后在文本缓冲区中光标应该放置的位置;组合字符、变宽字体、不可打印字符和从右至左的文字都是其归因。所以尽管在UTF-8字符串中字符数量与码点数量的关系比UTF-32更为复杂,在实际中很少会遇到有不同的情形。
**优点**
* UTF-8是ASCII的一个[超集](http://zh.wikipedia.org/wiki/%E8%B6%85%E9%9B%86 "超集")。因为一个纯ASCII字符串也是一个合法的UTF-8字符串,所以现存的ASCII文本不需要转换。为传统的扩展ASCII字符集设计的软件通常可以不经修改或很少修改就能与UTF-8一起使用。
* 使用标准的面向字节的排序例程对UTF-8排序将产生与基于Unicode代码点排序相同的结果。(尽管这只有有限的有用性,因为在任何特定语言或文化下都不太可能有仍可接受的文字排列顺序。)
* UTF-8和UTF-16都是[可扩展标记语言](http://zh.wikipedia.org/wiki/%E5%8F%AF%E6%89%A9%E5%B1%95%E6%A0%87%E8%AE%B0%E8%AF%AD%E8%A8%80 "可扩展标记语言")文档的标准编码。所有其它编码都必须通过显式或文本声明来指定。
* 任何[面向字节](http://zh.wikipedia.org/w/index.php?title=%E9%9D%A2%E5%90%91%E5%AD%97%E8%8A%82&action=edit&redlink=1 "面向字节")的[字符串搜索算法](http://zh.wikipedia.org/wiki/%E5%AD%97%E7%AC%A6%E4%B8%B2%E6%90%9C%E7%B4%A2%E7%AE%97%E6%B3%95)都可以用于UTF-8的数据(只要输入仅由完整的UTF-8字符组成)。但是,对于包含字符记数的正则表达式或其它结构必须小心。
* UTF-8字符串可以由一个简单的算法可靠地识别出来。就是,一个字符串在任何其它编码中表现为合法的UTF-8的可能性很低,并随字符串长度增长而减小。举例说,字符值C0,C1,F5至FF从来没有出现。为了更好的可靠性,可以使用正则表达式来统计非法过长和替代值(可以查看[W3 FAQ: Multilingual Forms](http://www.w3.org/International/questions/qa-forms-utf-8)上的验证UTF-8字符串的正则表达式)。
**缺点**
因为每个字符使用不同数量的字节编码,所以寻找串中第N个字符是一个O(N)复杂度的操作 — 即,串越长,则需要更多的时间来定位特定的字符。同时,还需要位变换来把字符编码成字节,把字节解码成字符。
# 4.Accept-Charset/Accept-Encoding/Accept-Language/Content-Type/Content-Encoding/Content-Language
在HTTP中,与字符集和字符编码相关的消息头是Accept-Charset/Content-Type,另外主要区分Accept-Charset/Accept-Encoding/Accept-Language/Content-Type/Content-Encoding/Content-Language:
Accept-Charset:浏览器申明自己接收的字符集,这就是本文前面介绍的各种字符集和字符编码,如gb2312,utf-8(通常我们说Charset包括了相应的字符编码方案);
Accept-Encoding:浏览器申明自己接收的编码方法,通常指定压缩方法,是否支持压缩,支持什么压缩方法(gzip,deflate),(注意:这不是只字符编码);
Accept-Language:浏览器申明自己接收的语言。语言跟字符集的区别:中文是语言,中文有多种字符集,比如big5,gb2312,gbk等等;
Content-Type:WEB服务器告诉浏览器自己响应的对象的类型和字符集。例如:Content-Type: text/html; charset='gb2312'
Content-Encoding:WEB服务器表明自己使用了什么压缩方法(gzip,deflate)压缩响应中的对象。例如:Content-Encoding:gzip
Content-Language:WEB服务器告诉浏览器自己响应的对象的语言。
# 参考文献&进一步阅读
1. 百度百科. 字符集. [http://baike.baidu.com/view/51987.htm](http://baike.baidu.com/view/51987.htm), 2010-12-28
2. 维基百科. 字符编码. [http://zh.wikipedia.org/wiki/%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81](http://zh.wikipedia.org/wiki/%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81), 2011-1-5
3. 维基百科. ASCII. [http://zh.wikipedia.org/wiki/ASCII](http://zh.wikipedia.org/wiki/ASCII), 2011-4-5
4. 维基百科. GB2312. [http://zh.wikipedia.org/wiki/GB_2312](http://zh.wikipedia.org/wiki/GB_2312), 2011-3-17
5. 维基百科. GB18030. [http://zh.wikipedia.org/wiki/GB_18030](http://zh.wikipedia.org/wiki/GB_18030), 2010-3-10
6. 维基百科. GBK. [http://zh.wikipedia.org/wiki/GBK](http://zh.wikipedia.org/wiki/GBK), 2011-3-7
7. 维基百科. Unicode. [http://zh.wikipedia.org/wiki/Unicode](http://zh.wikipedia.org/wiki/Unicode), 2011-4-30
8. Laruence. 字符编码详解(基础). [http://www.laruence.com/2009/08/22/1059.html](http://www.laruence.com/2009/08/22/1059.html), 2009-8-22
9. Jan Hunt. Character Sets and Encoding for Web Designers - UCS/UNICODE.[http://www.uninetnews.com/other_standards/charset.php](http://www.uninetnews.com/other_standards/charset.php)