编码 · TUNA-daily

[TOC] ## 1. 各类编码 > 1. ASCII 占1个字节，只支持英文 > 2. GB2312 占2个字节，支持6700+汉字 > 3. GBK GB2312的升级版，支持21000+汉字 > 4. Shift-JIS 日本字符 > 5. ks_c_5601-1987 韩国编码 > 6. TIS-620 泰国编码由于每个国家都有自己的字符，所以其对应关系也涵盖了自己国家的字符，但是以上编码都存在局限性，即：仅涵盖本国字符，无其他国家字符的对应关系。应运而生出现了万国码，他涵盖了全球所有的文字和二进制的对应关系， ### 1.1 统一编码之Unicode **Unicode** 2-4字节已经收录136690个字符，并还在一直不断扩张中.. 1. Unicode解决了字符和二进制的对应关系 2. 但是使用unicode表示一个字符，太浪费空间。例如：利用unicode表示“Python”需要12个字节才能表示，比原来ASCII表示增加了1倍。 3. 存储和网络传输时一般数据都会非常多，那么增加1倍将是无法容忍的！！！由于Python创始人在开发初期认知的局限性，其并未预料到python能发展成一个全球流行的语言，导致其开发初期并没有把支持全球各国语言当做重要的事情来做，所以就轻佻的把ASCII当做了默认编码。当后来大家对支持汉字、日文、法语等语言的呼声越来越高时，Python于是准备引入unicode,但若直接把默认编码改成unicode的话是不现实的，因为很多软件就是基于之前的默认编码ASCII开发的，编码一换，那些软件的编码就都乱了。所以Python 2 就直接搞了一个新的字符类型，就叫unicode类型，比如你想让你的中文在全球所有电脑上正常显示，在内存里就得把字符串存成unicode类型. ### 1.2 utf 为了解决存储和网络传输的问题，出现了Unicode Transformation Format，学术名UTF，即：对unicode中的进行转换，以便于在存储和网络传输时可以节省空间! > 1. UTF-8：使用1、2、3、4个字节表示所有字符；优先使用1个字符、无法满足则使增加一个字节，最多4个字节。英文占1个字节、欧洲语系占2个、东亚占3个，其它及特殊字符占4个 > 2. UTF-16：使用2、4个字节表示所有字符；优先使用2个字节，否则使用4个字节表示。 > 3. UTF-32：使用4个字节表示所有字符；无论以什么编码在内存里显示字符，存到硬盘上都是2进制。 ~~~ ascii编码(美国)： l 0b1101100 o 0b1101111 v 0b1110110 e 0b1100101 GBK编码(中国)：老 0b11000000 0b11001111 男 0b11000100 0b11010000 孩 0b10111010 0b10100010 Shift_JIS编码(日本)：私 0b10001110 0b10000100 は 0b10000010 0b11001101 ks_c_5601-1987编码(韩国)： 나 0b10110011 0b10101010 는 0b10110100 0b11000010 TIS-620编码(泰国)： ฉัน 0b10101001 0b11010001 0b10111001 ~~~ ... 要注意的是，存到硬盘上时是以何种编码存的，再从硬盘上读出来时，就必须以何种编码读，要不然就乱了。。