# 8.4. `BaseHTMLProcessor.py` 介绍
`SGMLParser` 自身不会产生任何结果。它只是分析,分析,再分析,对于它找到的有趣的东西会调用相应的一个方法,但是这些方法什么都不做。`SGMLParser` 是一个 HTML _消费者 (consumer)_:它接收 HTML,将其分解成小的、结构化的小块。正如您所看到的,在[前一节](extracting_data.html "8.3. 从 HTML 文档中提取数据")中,您可以定义 `SGMLParser` 的子类,它可以捕捉特别标记和生成有用的东西,如一个网页中所有链接的一个列表。现在我们将沿着这条路更深一步。我们要定义一个可以捕捉 `SGMLParser` 所丢出来的所有东西的一个类,接着重建整个 HTML 文档。用技术术语来说,这个类将是一个 HTML _生产者 (producer)_。
`BaseHTMLProcessor` 子类化 `SGMLParser`,并且提供了全部的 8 个处理方法:`unknown_starttag`、`unknown_endtag`、`handle_charref`、`handle_entityref`、`handle_comment`、`handle_pi`、`handle_decl` 和 `handle_data`。
## 例 8.8. `BaseHTMLProcessor` 介绍
```
class BaseHTMLProcessor(SGMLParser):
def reset(self):
self.pieces = []
SGMLParser.reset(self)
def unknown_starttag(self, tag, attrs):
strattrs = "".join([' %s="%s"' % (key, value) for key, value in attrs])
self.pieces.append("<%(tag)s%(strattrs)s>" % locals())
def unknown_endtag(self, tag):
self.pieces.append("</%(tag)s>" % locals())
def handle_charref(self, ref):
self.pieces.append("&#%(ref)s;" % locals())
def handle_entityref(self, ref):
self.pieces.append("&%(ref)s" % locals())
if htmlentitydefs.entitydefs.has_key(ref):
self.pieces.append(";")
def handle_data(self, text):
self.pieces.append(text)
def handle_comment(self, text):
self.pieces.append("<!--%(text)s-->" % locals())
def handle_pi(self, text):
self.pieces.append("<?%(text)s>" % locals())
def handle_decl(self, text):
self.pieces.append("<!%(text)s>" % locals())
```
| | |
| --- | --- |
| \[1\] | `reset` 由 `SGMLParser.__init__` 来调用。在[调用父类方法](../object_oriented_framework/defining_classes.html#fileinfo.init.code.example "例 5.6. 编写 FileInfo 类")之前将 `self.pieces` 初始化为空列表。`self.pieces` 是一个[数据属性](../object_oriented_framework/userdict.html#fileinfo.userdict.init.example "例 5.9. 定义 UserDict 类"),将用来保存将要构造的 HTML 文档的片段。每个处理器方法都将重构 `SGMLParser` 所分析出来的 HTML,并且每个方法将生成的字符串追加到 `self.pieces` 之后。注意,`self.pieces` 是一个 list。也许您想将它定义为一个字符串,然后不停地将每个片段追加到它的后面。这样做是可以的,但是 Python 在处理 list 方面效率更高一些。 \[5\] |
| \[2\] | 因为 `BaseHTMLProcessor` 没有为特别标记定义方法 (如在 [`URLLister`](extracting_data.html#dialect.extract.links "例 8.6. urllister.py 介绍") 中的`start_a` 方法), `SGMLParser` 将对每一个开始标记调用 `unknown_starttag` 方法。这个方法接收标记 (`tag`) 和属性的名字/值对的 list(`attrs`) 两参数,重新构造初始的 HTML,接着将结果追加到 `self.pieces` 后。 这里的[字符串格式化](../native_data_types/formatting_strings.html "3.5. 格式化字符串")有些陌生,我们将留到下一节再说明。 |
| \[3\] | 重构结束标记要简单得多,只是使用标记名字,把它包在 `</...>` 括号中。 |
| \[4\] | 当 `SGMLParser` 找到一个字符引用时,会用原始的引用来调用 `handle_charref`。如果 HTML 文档包含 ` ` 这个引用,`ref` 将为 `160`。重构原始的完整的字符引用只要将 `ref` 包装在 `&#...;` 字符中间。 |
| \[5\] | 实体引用同字符引用相似,但是没有#号。重建原始的实体引用只要将 `ref` 包装在 `&...;` 字符串中间。(实际上,一位博学的读者曾经向我指出,除些之外还稍微有些复杂。仅有某种标准的 HTML 实体以一个分号结束;其它看上去差不多的实体并不如此。幸运的是,标准 HTML 实体集已经定义在 Python 的一个叫做 `htmlentitydefs` 的模块中了。从而引出额外的 `if` 语句。) |
| \[6\] | 文本块则简单地不经修改地追加到 `self.pieces` 后。 |
| \[7\] | HTML 注释包装在 `<!--...-->` 字符中。 |
| \[8\] | 处理指令包装在 `<?...>` 字符中。 |
> 重要
> HTML 规范要求所有非 HTML (像客户端的 JavaScript) 必须包括在 HTML 注释中,但不是所有的页面都是这么做的 (而且所有的最新的浏览器也都容许不这样做) 。`BaseHTMLProcessor` 不允许这样,如果脚本嵌入得不正确,它将被当作 HTML 一样进行分析。例如,如果脚本包含了小于和等于号,`SGMLParser` 可能会错误地认为找到了标记和属性。`SGMLParser` 总是把标记名和属性名转换成小写,这样可能破坏了脚本,并且 `BaseHTMLProcessor` 总是用双引号来将属性封闭起来 (尽管原始的 HTML 文档可能使用单引号或没有引号) ,这样必然会破坏脚本。应该总是将您的客户端脚本放在 HTML 注释中进行保护。
## 例 8.9. `BaseHTMLProcessor` 输出结果
```
def output(self):
"""Return processed HTML as a single string"""
return "".join(self.pieces)
```
| | |
| --- | --- |
| \[1\] | 这是在 `BaseHTMLProcessor` 中的一个方法,它永远不会被父类 `SGMLParser` 所调用。因为其它的处理器方法将它们重构的 HTML 保存在 `self.pieces` 中,这个函数需要将所有这些片段连接成一个字符串。正如前面提到的,Python 在处理列表方面非常出色,但对于字符串处理就逊色了。所以我们只有在某人确实需要它时才创建完整的字符串。 |
| \[2\] | 如果您愿意,也可以换成使用 `string` 模块的 `join` 方法:`string.join(self.pieces, "")`。 |
## 进一步阅读
* W3C 讨论了[字符和实体引用](http://www.w3.org/TR/REC-html40/charset.html#entities)。
* _Python Library Reference_ 解答了您的怀疑,即 [`htmlentitydefs` 模块](http://www.python.org/doc/current/lib/module-htmlentitydefs.html)的确名符其实。
## Footnotes
\[5\] Python 处理 list 比字符串快的原因是:list 是可变的,但字符串是不可变的。这就是说向 list 进行追加只是增加元素和修改索引。因为字符串在创建之后不能被修改,像 `s = s + newpiece` 这样的代码将会从原值和新片段的连接结果中创建一个全新的字符串,然后丢弃原来的字符串。这样就需要大量昂贵的内存管理,并且随着字符串变长,所需要的开销也在增长。所以在一个循环中执行 `s = s + newpiece` 非常不好。用技术术语来说,向一个 list 追加 `n` 个项的代价为 `O(n)`,而向一个字符串追加 `n` 个项的代价是 `O(n<sup>2</sup>)`。
- 版权信息
- 第 1 章 安装 Python
- 1.1. 哪一种 Python 适合您?
- 1.2. Windows 上的 Python
- 1.3. Mac OS X 上的 Python
- 1.4. Mac OS 9 上的 Python
- 1.5. RedHat Linux 上的 Python
- 1.6. Debian GNU/Linux 上的 Python
- 1.7. 从源代码安装 Python
- 1.8. 使用 Python 的交互 Shell
- 1.9. 小结
- 第 2 章 第一个 Python 程序
- 2.1. 概览
- 2.2. 函数声明
- 2.3. 文档化函数
- 2.4. 万物皆对象
- 2.5. 代码缩进
- 2.6. 测试模块
- 第 3 章 内置数据类型
- 3.1. Dictionary 介绍
- 3.2. List 介绍
- 3.3. Tuple 介绍
- 3.4. 变量声明
- 3.5. 格式化字符串
- 3.6. 映射 list
- 3.7. 连接 list 与分割字符串
- 3.8. 小结
- 第 4 章 自省的威力
- 4.1. 概览
- 4.2. 使用可选参数和命名参数
- 4.3. 使用 type、str、dir 和其它内置函数
- 4.4. 通过 getattr 获取对象引用
- 4.5. 过滤列表
- 4.6. and 和 or 的特殊性质
- 4.7. 使用 lambda 函数
- 4.8. 全部放在一起
- 4.9. 小结
- 第 5 章 对象和面向对象
- 5.1. 概览
- 5.2. 使用 from _module_ import 导入模块
- 5.3. 类的定义
- 5.4. 类的实例化
- 5.5. 探索 UserDict:一个封装类
- 5.6. 专用类方法
- 5.7. 高级专用类方法
- 5.8. 类属性介绍
- 5.9. 私有函数
- 5.10. 小结
- 第 6 章 异常和文件处理
- 6.1. 异常处理
- 6.2. 与文件对象共事
- 6.3. for 循环
- 6.4. 使用 `sys.modules`
- 6.5. 与目录共事
- 6.6. 全部放在一起
- 6.7. 小结
- 第 7 章 正则表达式
- 7.1. 概览
- 7.2. 个案研究:街道地址
- 7.3. 个案研究:罗马字母
- 7.4. 使用 {n,m} 语法
- 7.5. 松散正则表达式
- 7.6. 个案研究:解析电话号码
- 7.7. 小结
- 第 8 章 HTML 处理
- 8.1. 概览
- 8.2. sgmllib.py 介绍
- 8.3. 从 HTML 文档中提取数据
- 8.4. BaseHTMLProcessor.py 介绍
- 8.5. locals 和 globals
- 8.6. 基于 dictionary 的字符串格式化
- 8.7. 给属性值加引号
- 8.8. dialect.py 介绍
- 8.9. 全部放在一起
- 8.10. 小结
- 第 9 章 XML 处理
- 9.1. 概览
- 9.2. 包
- 9.3. XML 解析
- 9.4. Unicode
- 9.5. 搜索元素
- 9.6. 访问元素属性
- 9.7. Segue [9]
- 第 10 章 脚本和流
- 10.1. 抽象输入源
- 10.2. 标准输入、输出和错误
- 10.3. 查询缓冲节点
- 10.4. 查找节点的直接子节点
- 10.5. 根据节点类型创建不同的处理器
- 10.6. 处理命令行参数
- 10.7. 全部放在一起
- 10.8. 小结
- 第 11 章 HTTP Web 服务
- 11.1. 概览
- 11.2. 避免通过 HTTP 重复地获取数据
- 11.3. HTTP 的特性
- 11.4. 调试 HTTP web 服务
- 11.5. 设置 User-Agent
- 11.6. 处理 Last-Modified 和 ETag
- 11.7. 处理重定向
- 11.8. 处理压缩数据
- 11.9. 全部放在一起
- 11.10. 小结
- 第 12 章 SOAP Web 服务
- 12.1. 概览
- 12.2. 安装 SOAP 库
- 12.3. 步入 SOAP
- 12.4. SOAP 网络服务查错
- 12.5. WSDL 介绍
- 12.6. 以 WSDL 进行 SOAP 内省
- 12.7. 搜索 Google
- 12.8. SOAP 网络服务故障排除
- 12.9. 小结
- 第 13 章 单元测试
- 13.1. 罗马数字程序介绍 II
- 13.2. 深入
- 13.3. romantest.py 介绍
- 13.4. 正面测试 (Testing for success)
- 13.5. 负面测试 (Testing for failure)
- 13.6. 完备性检测 (Testing for sanity)
- 第 14 章 测试优先编程
- 14.1. roman.py, 第 1 阶段
- 14.2. roman.py, 第 2 阶段
- 14.3. roman.py, 第 3 阶段
- 14.4. roman.py, 第 4 阶段
- 14.5. roman.py, 第 5 阶段
- 第 15 章 重构
- 15.1. 处理 bugs
- 15.2. 应对需求变化
- 15.3. 重构
- 15.4. 后记
- 15.5. 小结
- 第 16 章 函数编程
- 16.1. 概览
- 16.2. 找到路径
- 16.3. 重识列表过滤
- 16.4. 重识列表映射
- 16.5. 数据中心思想编程
- 16.6. 动态导入模块
- 16.7. 全部放在一起
- 16.8. 小结
- 第 17 章 动态函数
- 17.1. 概览
- 17.2. plural.py, 第 1 阶段
- 17.3. plural.py, 第 2 阶段
- 17.4. plural.py, 第 3 阶段
- 17.5. plural.py, 第 4 阶段
- 17.6. plural.py, 第 5 阶段
- 17.7. plural.py, 第 6 阶段
- 17.8. 小结
- 第 18 章 性能优化
- 18.1. 概览
- 18.2. 使用 timeit 模块
- 18.3. 优化正则表达式
- 18.4. 优化字典查找
- 18.5. 优化列表操作
- 18.6. 优化字符串操作
- 18.7. 小结
- 附录 A. 进一步阅读
- 附录 B. 五分钟回顾
- 附录 C. 技巧和窍门
- 附录 D. 示例清单
- 附录 E. 修订历史
- 附录 F. 关于本书
- 附录 G. GNU Free Documentation License
- G.0. Preamble
- G.1. Applicability and definitions
- G.2. Verbatim copying
- G.3. Copying in quantity
- G.4. Modifications
- G.5. Combining documents
- G.6. Collections of documents
- G.7. Aggregation with independent works
- G.8. Translation
- G.9. Termination
- G.10. Future revisions of this license
- G.11. How to use this License for your documents
- 附录 H. GNU 自由文档协议
- H.0. 序
- H.1. 适用范围和定义
- H.2. 原样复制
- H.3. 大量复制
- H.4. 修改
- H.5. 合并文档
- H.6. 文档合集
- H.7. 独立著作聚集
- H.8. 翻译
- H.9. 终止协议
- H.10. 协议将来的修订
- H.11. 如何为你的文档使用本协议
- 附录 I. Python license
- I.A. History of the software
- I.B. Terms and conditions for accessing or otherwise using Python
- 附录 J. Python 协议
- J.0. 关于译文的声明
- J.A. 软件的历史
- J.B. 使用 Python 的条款和条件