### 6.4.3 编程案例:文本文件分析
本节讨论一个文件分析程序,其功能是输入一个文本文件,对文件内容进行分词(将字符流划分为单词),然后统计文件中的字符数、单词数、每个单词的出现次数以及行数,最 后输出统计结果。按出现频率前 n 名的单词。这种分析在很多应用中都会用到,例如自然语 言处理、文档相似性比较、搜索引擎等。
分析程序的算法设计是直接了当的,其核心是对多个指标进行累积计数。其中,对字符 数和行数的计数可以利用文件操作的结果直接得到:read()可将整个文件的内容作为一个字 符串返回,字符串长度就是字符总数;readlines()将文件的所有行构成一个列表返回,列表 长度就是行数。至于单词总数,需要先将文件内容(字符串)划分成单词,这可以利用 string 库中的 split 函数实现。既可以对 read()返回的整个字符串分词,也可以通过循环来对 readlines() 返回的每一行字符串分词,我们将采用更简单的前一种方法。下面是实现这一部分工作的示 意代码,其中 f 表示被分析的文件对象:
```
numchars = len(f.read())
numlines = len(f.readlines())
numwords = len(string.split(f.read()))
```
分析程序中最麻烦的是对每个单词出现次数的累积计数。按照过去介绍的累积算法模式,需要为每一个累积量定义一个累积变量,并在循环中不断更新该变量。然而,这种做法 并不适合现在的场合,因为为文件中可能出现的成千上万个单词各定义一个累积变量显然太 笨拙了,更何况文件中到底有哪些单词是不能预知的。编程解决问题的诀窍之一是使用合适 的数据类型,6.1.2 中介绍的字典正可以在这个场合派上用场。
我们将建立一个字典 worddict,其关键字是文件中出现的单词,值是该单词在文件中出 现的次数,即 worddict[w]等于 w 在文件中出现的次数。在读文件单词的过程中,每当遇到 单词 w,就用下面的语句递增 w 的计数值:
```
worddict[w] = worddict[w] + 1
```
不过这里还有一个小麻烦:当首次遇到单词 w 时,字典 worddict 中尚未建立相应的词条, 即 worddict[w]无定义,因此上述递增计数的语句将导致错误(KeyError)。为解决这个小麻 烦,最容易想到的是用条件语句来检测单词 w 是否已经存在于字典中,代码如下:
```
if worddict.has_key(w):
worddict[w] = worddict[w] + 1
else:
worddict[w] = 1
```
另一种做法是利用例外处理,通过捕获关键字错误(KeyError)来决定是递增计数还是 首次建立词条。代码如下:
```
try:
worddict[w] = worddict[w] + 1
except KeyError:
worddict[w] = 1
```
这个做法在使用字典的程序中很常用,我们的分析程序也采用了这个做法。 除了核心代码,还需补充一些在分词之前对文件字符串进行预处理的代码。其一,将文件内容中的字母都转换成小写,以使单词"WORD"和"word"被识别为同一单词;其二,将文 件内容中的各种标点符号都替换成空格,以使单词"one,two"能被正确地划分为两个单词 "one"和"two",以及"one, two"不被划分为"one,"和"two"①。做这两件事的代码如下:
```
text = string.lower(text)
for ch in "`~!@#$%^&*()-_=+[{]}\\|;:'\",<.>/?":
text = string.replace(text,ch," ")
```
接下来即可划分单词,并对所有单词进行循环,在循环过程中构造字典 worddict。代码如下:
```
wordlist = string.split(text)
worddict = {}
for w in wordlist:
try:
worddict[w] = worddict[w] + 1
except KeyError:
worddict[w] = 1
```
最后输出分析结果。由于单词可能很多,我们的分析程序只示意性地输出了 5 个单词及 其出现次数。更好的做法是根据出现次数对单词排名,并输出最频繁的前 n 名单词,有兴趣 的读者可以试着完善这个功能。
将以上讨论综合起来,即得完整的文件分析程序。
> ① 这里的细微差别在于逗号后是否有空格。
【程序 6.2】textanalysis.py
```
import string
def main():
fname = raw_input("File to analyze: ") f = open(fname,"r")
text = f.read() numchars = len(text) f.seek(0)
numlines = len(f.readlines()) text = string.lower(text)
for ch in "`~!@#$%^&*()-_=+[{]}\\|;:'\",<.>/?":
text = string.replace(text,ch," ")
wordlist = string.split(text) numwords = len(wordlist) worddict = {}
for w in wordlist:
try:
worddict[w] = worddict[w] + 1
except KeyError:
worddict[w] = 1
print "Number of characters:",numchars print "Number of lines:",numlines print "Number of words:",numwords pairlist = worddict.items()
for i in range(10):
print pairlist[i],
main()
```
注意,由于需要两次读文件(read 和 readlines),所以在第二次读文件之前应将“读写头” 移动到文件开始处,这就是第 8 行的 f.seek(0)所做的事情。
假设有文件 yours.txt,其内容如下:
```
The life that I have Is all that I have,
And the life that I have Is yours.
The love that I have Of the life that I have
Is yours, and yours, and yours.
A sleep I shall have, A rest I shall have,
Yet death will be but a pause. For the peace of my years
In the long green grass,
Will be yours, and yours, and yours.
```
则运行程序 6.2 后,将得到如下结果:
```
File to analyze: yours.txt Number of characters: 315
Number of lines: 14 Number of words: 70
('and', 5) ('all', 1) ('peace', 1) ('love', 1) ('is', 3)
```
- 前言
- 第 1 章 计算与计算思维
- 1.1 什么是计算?
- 1.1.1 计算机与计算
- 1.1.2 计算机语言
- 1.1.3 算法
- 1.1.4 实现
- 1.2 什么是计算思维?
- 1.2.1 计算思维的基本原则
- 1.2.2 计算思维的具体例子
- 1.2.3 日常生活中的计算思维
- 1.2.4 计算思维对其他学科的影响
- 1.3 初识 Python
- 1.3.1 Python 简介
- 1.3.2 第一个程序
- 1.3.3 程序的执行方式
- 1.3.4 Python 语言的基本成分
- 1.4 程序排错
- 1.5 练习
- 第 2 章 用数据表示现实世界
- 2.1 数据和数据类型
- 2.1.1 数据是对现实的抽象
- 2.1.1 常量与变量
- 2.1.2 数据类型
- 2.1.3 Python 的动态类型*
- 2.2 数值类型
- 2.2.1 整数类型 int
- 2.2.2 长整数类型 long
- 2.2.3 浮点数类型 float
- 2.2.4 数学库模块 math
- 2.2.5 复数类型 complex*
- 2.3 字符串类型 str
- 2.3.1 字符串类型的字面值形式
- 2.3.2 字符串类型的操作
- 2.3.3 字符的机内表示
- 2.3.4 字符串类型与其他类型的转换
- 2.3.5 字符串库 string
- 2.4 布尔类型 bool
- 2.4.1 关系运算
- 2.4.2 逻辑运算
- 2.4.3 布尔代数运算定律*
- 2.4.4 Python 中真假的表示与计算*
- 2.5 列表和元组类型
- 2.5.1 列表类型 list
- 2.5.2 元组类型 tuple
- 2.6 数据的输入和输出
- 2.6.1 数据的输入
- 2.6.2 数据的输出
- 2.6.3 格式化输出
- 2.7 编程案例:查找问题
- 2.8 练习
- 第 3 章 数据处理的流程控制
- 3.1 顺序控制结构
- 3.2 分支控制结构
- 3.2.1 单分支结构
- 3.2.2 两路分支结构
- 3.2.3 多路分支结构
- 3.3 异常处理
- 3.3.1 传统的错误检测方法
- 3.3.2 传统错误检测方法的缺点
- 3.3.3 异常处理机制
- 3.4 循环控制结构
- 3.4.1 for 循环
- 3.4.2 while 循环
- 3.4.3 循环的非正常中断
- 3.4.4 嵌套循环
- 3.5 结构化程序设计
- 3.5.1 程序开发过程
- 3.5.2 结构化程序设计的基本内容
- 3.6 编程案例:如何求 n 个数据的最大值?
- 3.6.1 几种解题策略
- 3.6.2 经验总结
- 3.7 Python 布尔表达式用作控制结构*
- 3.8 练习
- 第 4 章 模块化编程
- 4.1 模块化编程基本概念
- 4.1.1 模块化设计概述
- 4.1.2 模块化编程
- 4.1.3 编程语言对模块化编程的支持
- 4.2 Python 语言中的函数
- 4.2.1 用函数减少重复代码 首先看一个简单的用字符画一棵树的程序:
- 4.2.2 用函数改善程序结构
- 4.2.3 用函数增强程序的通用性
- 4.2.4 小结:函数的定义与调用
- 4.2.5 变量的作用域
- 4.2.6 函数的返回值
- 4.3 自顶向下设计
- 4.3.1 顶层设计
- 4.3.2 第二层设计
- 4.3.3 第三层设计
- 4.3.4 第四层设计
- 4.3.5 自底向上实现与单元测试
- 4.3.6 开发过程小结
- 4.4 Python 模块*
- 4.4.1 模块的创建和使用
- 4.4.2 Python 程序架构
- 4.4.3 标准库模块
- 4.4.4 模块的有条件执行
- 4.5 练习
- 第 5 章 图形编程
- 5.1 概述
- 5.1.1 计算可视化
- 5.1.2 图形是复杂数据
- 5.1.3 用对象表示复杂数据
- 5.2 Tkinter 图形编程
- 5.2.1 导入模块及创建根窗口
- 5.2.2 创建画布
- 5.2.3 在画布上绘图
- 5.2.4 图形的事件处理
- 5.3 编程案例
- 5.3.1 统计图表
- 5.3.2 计算机动画
- 5.4 软件的层次化设计:一个案例
- 5.4.1 层次化体系结构
- 5.4.2 案例:图形库 graphics
- 5.4.3 graphics 与面向对象
- 5.5 练习
- 第 6 章 大量数据的表示和处理
- 6.1 概述
- 6.2 有序的数据集合体
- 6.2.1 字符串
- 6.2.2 列表
- 6.2.3 元组
- 6.3 无序的数据集合体
- 6.3.1 集合
- 6.3.2 字典
- 6.4 文件
- 6.4.1 文件的基本概念
- 6.4.2 文件操作
- 6.4.3 编程案例:文本文件分析
- 6.4.4 缓冲
- 6.4.5 二进制文件与随机存取*
- 6.5 几种高级数据结构*
- 6.5.1 链表
- 6.5.2 堆栈
- 6.5.3 队列
- 6.6 练习
- 第 7 章 面向对象思想与编程
- 7.1 数据与操作:两种观点
- 7.1.1 面向过程观点
- 7.1.2 面向对象观点
- 7.1.3 类是类型概念的发展
- 7.2 面向对象编程
- 7.2.1 类的定义
- 7.2.2 对象的创建
- 7.2.3 对象方法的调用
- 7.2.4 编程实例:模拟炮弹飞行
- 7.2.5 类与模块化
- 7.2.6 对象的集合体
- 7.3 超类与子类*
- 7.3.1 继承
- 7.3.2 覆写
- 7.3.3 多态性
- 7.4 面向对象设计*
- 7.5 练习
- 第 8 章 图形用户界面
- 8.1 图形用户界面概述
- 8.1.1 程序的用户界面
- 8.1.2 图形界面的组成
- 8.1.3 事件驱动
- 8.2 GUI 编程
- 8.2.1 UI 编程概述
- 8.2.2 初识 Tkinter
- 8.2.3 常见 GUI 构件的用法
- 8.2.4 布局
- 8.2.5 对话框*
- 8.3 Tkinter 事件驱动编程
- 8.3.1 事件和事件对象
- 8.3.2 事件处理
- 8.4 模型-视图设计方法
- 8.4.1 将 GUI 应用程序封装成对象
- 8.4.2 模型与视图
- 8.4.3 编程案例:汇率换算器
- 8.5 练习
- 第 9 章 模拟与并发
- 9.1 模拟
- 9.1.1 计算机建模
- 9.1.2 随机问题的建模与模拟
- 9.1.3 编程案例:乒乓球比赛模拟
- 9.2 原型法
- 9.3 并行计算*
- 9.3.1 串行、并发与并行
- 9.3.2 进程与线程
- 9.3.3 多线程编程的应用
- 9.3.4 Python 多线程编程
- 9.3.5 小结
- 9.4 练习
- 第 10 章 算法设计和分析
- 10.1 枚举法
- 10.2 递归
- 10.3 分治法
- 10.4 贪心法
- 10.5 算法分析
- 10.5.1 算法复杂度
- 10.5.2 算法分析实例
- 10.6 不可计算的问题
- 10.7 练习
- 第 11 章 计算+X
- 11.1 计算数学
- 11.2 生物信息学
- 11.3 计算物理学
- 11.4 计算化学
- 11.5 计算经济学
- 11.6 练习
- 附录
- 1 Python 异常处理参考
- 2 Tkinter 画布方法
- 3 Tkinter 编程参考
- 3.1 构件属性值的设置
- 3.2 构件的标准属性
- 3.3 各种构件的属性
- 3.4 对话框
- 3.5 事件
- 参考文献