### 2.3.3 字符的机内表示
和数值一样,字符在计算机内部也是用二进制数表示的,这个二进制数称为该字符的编码。于是,字符串在计算机内自然就用二进制数的序列表示。可以推知,对字符和字符串的 所有操作,实质上都是对二进制数的运算。我们在屏幕上看到各个字符有各自的形状,这只 是计算机的显示系统将字符的编码映射到特定屏幕像素组合的结果。
表示每个字符的二进制编码具体等于几并不重要,我们可以用(1111)2 表示字符 A,也可 以用(0000)2 表示字符 A,这不会带来什么本质的不同,事实上只要确保不同字符有不同的 编码即可。但是,为了在不同计算机之间能够交换信息,避免发生一台计算机上的字符 A(假设编码是(0000)2)传给另一台计算机后被解释成字符 B(假设(0000)2 在这台机器上恰 好是 B 的编码),我们需要统一字符编码。基于这个思想,人们制定了字符集编码标准—— 定义所支持的字符集以及每个字符的二进制编码。
由于计算机是美国人发明的,所以较早出现的一个编码标准是根据美国的使用情况制定 的标准,称为 ASCII①。这个标准也是最重要的,几乎所有计算机都支持 ASCII 的字符编码。 ASCII 使用一个字节的 7 位二进制位来表示字符(最高位恒为 0),这样就只能支持 27 = 128 个字符,各字符的编码如果用十进制表示就是 0~127。ASCII 所定义的字符包括大小写英 文字母、阿拉伯数字、标点符号、空格、回车、换行等,它们分为可打印字符和控制字符两 类。
> ① American Standard Code for Information Interchange 的首字母缩写。
Python 中提供了两个与字符编码有关的函数:ord()函数用于从字符得到其编码,chr() 函数用于从编码得出对应的字符。例如:
```
>>> ord('A')
65
>>> ord('a')
97
>>> ord('8')
56
>>> ord(' ')
32
>>> chr(64)
'@'
>>> chr(10) '\n'
>>> chr(13)
'\r'
```
对此例有几点说明:第四个例子是求空格字符的编码(32);第六个例子说明编码 10 对应的 字符可以用转义字符\n 表示,它其实就是换行字符;第七个例子说明编码 13 对应的字符可 以用转义字符\r 表示,它其实就是回车字符。换行和回车都是控制字符的例子,控制字符 不像字母数字那样有可打印、显示的形状,但在程序中可以用转义字符来表示某些控制字符。
ASCII 编码的一个问题是支持的字符太少,对美国人来说够用,但对其他国家来说远远 不够。因此产生了各种对 ASCII 的扩充标准。例如针对欧洲语言的 Latin-1 标准将一个字节 的最高位也用上,从而在 ASCII 的基础上增加了 128 个字符。
中国的汉字也是字符,并且数量很大,用一个字节编码是远远不够的。较早的国家标准 GB2312 采用两个字节来对汉字编码,共定义了 6763 个汉字。后来产生了 GBK 规范,仍然 用两个字节编码,但支持 2 万多个汉字。最新的国家标准是 GB18030,它最多可用四个字 节编码,支持 7 万多个汉字。
为了将全世界的字符编码统一起来,国际标准化组织 ISO 制定了一个庞大的字符编码 标准 Unicode。Unicode 最多用四个字节的编码,因此可以囊括地球上所有语言所用到的所 有字符,目前已经得到广泛支持。较新版本的 Python 语言(包括 2.7 版)都支持 Unicode。 下面我们举例说明 Python 对非 ASCII 字符的处理方法。最简单的方法是使用 Unicode 字符串。Python 语言中,在字符串前面加个前缀 u 就表示 Unicode 字符串,其中可以使用
任意 Unicode 字符。例如:
```
>>> print u'A\xc4B'
AÄB
```
在这个例子中,字符串由三个字符构成:头尾两个字符分别是 A、B,可以从键盘直接 输入;中间的字符是 Latin-1 字符集中的字符 ?,无法从键盘直接输入,但可以通过输入十 六进制编码(即 c4,另外\x 是十六进制数的标志)的方式来输入。
再看汉字的例子:
```
>>> '汉'
\xba\xba
>>> print '汉'
汉
>>> print '\xba\xba'
汉
```
从第一条语句可以看出,我们输入的“汉”字在机器内部被表示成了两个字节的编码,该编码按十六进制表示等于 baba,亦即 GBK 规范中“汉”的编码①。接下来两条 print 语句 表明,字符“汉”和编码“\xba\xba”作用是一样的。
如果需要将汉字和 ASCII 字符、Latin-1 字符等混合在一起构成字符串,那就只能用 Unicode 字符串。例如,“汉”在 Unicode 中的编码是 6c49,在 Unicode 字符串中可以用\u6c49 代表“汉”。结合前面的例子,读者应能理解下面这条语句的结果:
```
>>> print u'A\u6c49\xc4B'
A 汉 腂
```
如果希望 Python 程序能够处理包含汉字的字符串,用 Unicode 字符串是最可靠的做法。
具体细节在此从略。
- 前言
- 第 1 章 计算与计算思维
- 1.1 什么是计算?
- 1.1.1 计算机与计算
- 1.1.2 计算机语言
- 1.1.3 算法
- 1.1.4 实现
- 1.2 什么是计算思维?
- 1.2.1 计算思维的基本原则
- 1.2.2 计算思维的具体例子
- 1.2.3 日常生活中的计算思维
- 1.2.4 计算思维对其他学科的影响
- 1.3 初识 Python
- 1.3.1 Python 简介
- 1.3.2 第一个程序
- 1.3.3 程序的执行方式
- 1.3.4 Python 语言的基本成分
- 1.4 程序排错
- 1.5 练习
- 第 2 章 用数据表示现实世界
- 2.1 数据和数据类型
- 2.1.1 数据是对现实的抽象
- 2.1.1 常量与变量
- 2.1.2 数据类型
- 2.1.3 Python 的动态类型*
- 2.2 数值类型
- 2.2.1 整数类型 int
- 2.2.2 长整数类型 long
- 2.2.3 浮点数类型 float
- 2.2.4 数学库模块 math
- 2.2.5 复数类型 complex*
- 2.3 字符串类型 str
- 2.3.1 字符串类型的字面值形式
- 2.3.2 字符串类型的操作
- 2.3.3 字符的机内表示
- 2.3.4 字符串类型与其他类型的转换
- 2.3.5 字符串库 string
- 2.4 布尔类型 bool
- 2.4.1 关系运算
- 2.4.2 逻辑运算
- 2.4.3 布尔代数运算定律*
- 2.4.4 Python 中真假的表示与计算*
- 2.5 列表和元组类型
- 2.5.1 列表类型 list
- 2.5.2 元组类型 tuple
- 2.6 数据的输入和输出
- 2.6.1 数据的输入
- 2.6.2 数据的输出
- 2.6.3 格式化输出
- 2.7 编程案例:查找问题
- 2.8 练习
- 第 3 章 数据处理的流程控制
- 3.1 顺序控制结构
- 3.2 分支控制结构
- 3.2.1 单分支结构
- 3.2.2 两路分支结构
- 3.2.3 多路分支结构
- 3.3 异常处理
- 3.3.1 传统的错误检测方法
- 3.3.2 传统错误检测方法的缺点
- 3.3.3 异常处理机制
- 3.4 循环控制结构
- 3.4.1 for 循环
- 3.4.2 while 循环
- 3.4.3 循环的非正常中断
- 3.4.4 嵌套循环
- 3.5 结构化程序设计
- 3.5.1 程序开发过程
- 3.5.2 结构化程序设计的基本内容
- 3.6 编程案例:如何求 n 个数据的最大值?
- 3.6.1 几种解题策略
- 3.6.2 经验总结
- 3.7 Python 布尔表达式用作控制结构*
- 3.8 练习
- 第 4 章 模块化编程
- 4.1 模块化编程基本概念
- 4.1.1 模块化设计概述
- 4.1.2 模块化编程
- 4.1.3 编程语言对模块化编程的支持
- 4.2 Python 语言中的函数
- 4.2.1 用函数减少重复代码 首先看一个简单的用字符画一棵树的程序:
- 4.2.2 用函数改善程序结构
- 4.2.3 用函数增强程序的通用性
- 4.2.4 小结:函数的定义与调用
- 4.2.5 变量的作用域
- 4.2.6 函数的返回值
- 4.3 自顶向下设计
- 4.3.1 顶层设计
- 4.3.2 第二层设计
- 4.3.3 第三层设计
- 4.3.4 第四层设计
- 4.3.5 自底向上实现与单元测试
- 4.3.6 开发过程小结
- 4.4 Python 模块*
- 4.4.1 模块的创建和使用
- 4.4.2 Python 程序架构
- 4.4.3 标准库模块
- 4.4.4 模块的有条件执行
- 4.5 练习
- 第 5 章 图形编程
- 5.1 概述
- 5.1.1 计算可视化
- 5.1.2 图形是复杂数据
- 5.1.3 用对象表示复杂数据
- 5.2 Tkinter 图形编程
- 5.2.1 导入模块及创建根窗口
- 5.2.2 创建画布
- 5.2.3 在画布上绘图
- 5.2.4 图形的事件处理
- 5.3 编程案例
- 5.3.1 统计图表
- 5.3.2 计算机动画
- 5.4 软件的层次化设计:一个案例
- 5.4.1 层次化体系结构
- 5.4.2 案例:图形库 graphics
- 5.4.3 graphics 与面向对象
- 5.5 练习
- 第 6 章 大量数据的表示和处理
- 6.1 概述
- 6.2 有序的数据集合体
- 6.2.1 字符串
- 6.2.2 列表
- 6.2.3 元组
- 6.3 无序的数据集合体
- 6.3.1 集合
- 6.3.2 字典
- 6.4 文件
- 6.4.1 文件的基本概念
- 6.4.2 文件操作
- 6.4.3 编程案例:文本文件分析
- 6.4.4 缓冲
- 6.4.5 二进制文件与随机存取*
- 6.5 几种高级数据结构*
- 6.5.1 链表
- 6.5.2 堆栈
- 6.5.3 队列
- 6.6 练习
- 第 7 章 面向对象思想与编程
- 7.1 数据与操作:两种观点
- 7.1.1 面向过程观点
- 7.1.2 面向对象观点
- 7.1.3 类是类型概念的发展
- 7.2 面向对象编程
- 7.2.1 类的定义
- 7.2.2 对象的创建
- 7.2.3 对象方法的调用
- 7.2.4 编程实例:模拟炮弹飞行
- 7.2.5 类与模块化
- 7.2.6 对象的集合体
- 7.3 超类与子类*
- 7.3.1 继承
- 7.3.2 覆写
- 7.3.3 多态性
- 7.4 面向对象设计*
- 7.5 练习
- 第 8 章 图形用户界面
- 8.1 图形用户界面概述
- 8.1.1 程序的用户界面
- 8.1.2 图形界面的组成
- 8.1.3 事件驱动
- 8.2 GUI 编程
- 8.2.1 UI 编程概述
- 8.2.2 初识 Tkinter
- 8.2.3 常见 GUI 构件的用法
- 8.2.4 布局
- 8.2.5 对话框*
- 8.3 Tkinter 事件驱动编程
- 8.3.1 事件和事件对象
- 8.3.2 事件处理
- 8.4 模型-视图设计方法
- 8.4.1 将 GUI 应用程序封装成对象
- 8.4.2 模型与视图
- 8.4.3 编程案例:汇率换算器
- 8.5 练习
- 第 9 章 模拟与并发
- 9.1 模拟
- 9.1.1 计算机建模
- 9.1.2 随机问题的建模与模拟
- 9.1.3 编程案例:乒乓球比赛模拟
- 9.2 原型法
- 9.3 并行计算*
- 9.3.1 串行、并发与并行
- 9.3.2 进程与线程
- 9.3.3 多线程编程的应用
- 9.3.4 Python 多线程编程
- 9.3.5 小结
- 9.4 练习
- 第 10 章 算法设计和分析
- 10.1 枚举法
- 10.2 递归
- 10.3 分治法
- 10.4 贪心法
- 10.5 算法分析
- 10.5.1 算法复杂度
- 10.5.2 算法分析实例
- 10.6 不可计算的问题
- 10.7 练习
- 第 11 章 计算+X
- 11.1 计算数学
- 11.2 生物信息学
- 11.3 计算物理学
- 11.4 计算化学
- 11.5 计算经济学
- 11.6 练习
- 附录
- 1 Python 异常处理参考
- 2 Tkinter 画布方法
- 3 Tkinter 编程参考
- 3.1 构件属性值的设置
- 3.2 构件的标准属性
- 3.3 各种构件的属性
- 3.4 对话框
- 3.5 事件
- 参考文献