多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
# 8.9. 全部放在一起 到了将迄今为止我们已经学过并用得不错的东西放在一起的时候了。我希望您专心些。 ## 例 8.20. `translate` 函数,第 1 部分 ``` def translate(url, dialectName="chef"): import urllib sock = urllib.urlopen(url) htmlSource = sock.read() sock.close() ``` | | | | --- | --- | | \[1\] | 这个 `translate` 函数有一个[可选参数](../power_of_introspection/optional_arguments.html "4.2. 使用可选参数和命名参数") `dialectName`,它是一个字符串,指出我们将使用的方言。一会我们就会看到它是如何使用的。 | | \[2\] | 嘿,等一下,在这个函数中有一个 [`import`](../getting_to_know_python/everything_is_an_object.html#odbchelper.import "例 2.3. 访问 buildConnectionString 函数的 doc string") 语句!它在 Python 中完全合法。您已经习惯了在一个程序的前面看到 `import` 语句,它意味着导入的模块在程序的任何地方都是可用的。但您也可以在一个函数中导入模块,这意味着导入的模块只能在函数中使用。如果您有一个只能用在一个函数中的模块,这是一个简便的方法,使您的代码更模块化。(当发现您周末的加班已经变成了一个 800 行的艺术作品,并且决定将其分割成一打可重用的模块时,您会感谢它的。) | | \[3\] | 现在我们[得到了给定的 URL 源文件](extracting_data.html#dialect.extract.urllib "例 8.5. urllib 介绍")。 | ## 例 8.21. `translate` 函数,第 2 部分:奇妙而又奇妙 ``` parserName = "%sDialectizer" % dialectName.capitalize() parserClass = globals()[parserName] parser = parserClass() ``` | | | | --- | --- | | \[1\] | `capitalize` 是一个我们以前未曾见过的字符串方法;它只是将一个字符串的第一个字母变成大写,将其它的字母强制变成小写。再使用[字符串格式化](../native_data_types/formatting_strings.html "3.5. 格式化字符串"),我们就得到了一种方言的名字,并将它转化为了相应的方言变换器类的名字。如果 `dialectName` 是字符串 `'chef'`,`parserName` 将是字符串 `'ChefDialectizer'`。 | | \[2\] | 我们有了一个字符串形式 (`parserName`) 的类名称,还有一个 dictionary (`globals`()) 形式的全局名字空间。合起来后,我们可以得到以前者命名的类的引用。(回想一下,[类是对象](../object_oriented_framework/class_attributes.html "5.8. 类属性介绍"),并且它们可以像其它对象一样赋值给一个变量。) 如果 `parserName` 是字符串 `'ChefDialectizer'`,`parserClass` 将是类 `ChefDialectizer`。 | | \[3\] | 最后,我们拥有了一个类对象 (`parserClass`),接着我们想要生成这个类的一个实例。好,我们已经知道如何去做了:[像函数一样调用类](../object_oriented_framework/instantiating_classes.html "5.4. 类的实例化")。这个类保存在一个局部变量中,但这个事实完全不会有什么影响;我们只是像函数一样调用这个局部变量,取出这个类的一个实例。如果 `parserClass` 是类 `ChefDialectizer`,`parser` 将是类 `ChefDialectizer` 的一个实例。 | 何必这么麻烦?毕竟只有三个 `Dialectizer` 类;为什么不只使用一个 `case` 语句? (噢,在 Python 中不存在 `case` 语句,但为什么不只使用一组 `if` 语句呢?) 理由之一是:可扩展性。这个 `translate` 函数完全不用关心我们定义了多少个方言变换器类。设想一下,如果我们明天定义了一个新的 `FooDialectizer` 类,把 `'foo'` 作为 `dialectName` 传给 `translate` ,`translate` 也能工作。 甚至会更好。设想将 `FooDialectizer` 放进一个独立的模块中,使用 `from _module_ import` 将其导入。我们已经知道了,这样会将它[包含在 `globals`()](locals_and_globals.html#dialect.globals.example "例 8.11. globals 介绍") 中 ,所以不用修改 `translate` ,它仍然可以正确运行,尽管 `FooDialectizer` 位于一个独立的文件中。 现在设想一下方言的名字是从程序外面的某个地方来的,也许是从一个数据库中,或从一个表格中的用户输入的值中。您可以使用任意多的服务端 Python 脚本架构来动态地生成网页;这个函数将接收在页面请求的查询字符串中的一个 URL 和一个方言名字 (两个都是字符串) ,接着输出 “翻译” 后的网页。 最后,设想一下,使用了一种插件架构的 `Dialectizer` 框架。您可以将每个 `Dialectizer` 类放在分别放在独立的文件中,在 `dialect.py` 中只留下 `translate` 函数。假定一种统一的命名模式,这个 `translate` 函数能够动态地从合适的文件中导入合适的类,除了方言名字外什么都不用给出。(虽然您还没有看过动态导入,但我保证在后面的一章中会涉及到它。) 如果要加入一种新的方言,您只要在插件目录下加入一个以合适的名字命名的文件 (像 `foodialect.py`,它包含了 `FooDialectizer` 类) 。使用方言名 `'foo'` 来调用这个 `translate` 函数,将会查找 `foodialect.py` 模块,导入 `FooDialectizer` 类,这样就行了。 ## 例 8.22. `translate` 函数,第 3 部分 ``` parser.feed(htmlSource) parser.close() return parser.output() ``` | | | | --- | --- | | \[1\] | 剩下的工作似乎会非常无聊,但实际上,`feed` 函数[执行了全部的转换工作](extracting_data.html#dialect.feed.example "例 8.7. 使用 urllister.py")。我们拥有存在于单个字符串中的全部 HTML 源代码,所以我们只需要调用 `feed` 一次。然而,您可以按您的需要经常调用 `feed`,分析器将不停地进行分析。所以如果我们担心内存的使用 (或者我们已经知道了将要处理非常巨大的 HTML 页面) ,我们可以在一个循环中调用它,即我们读出一点 HTML 字节,就将其送进分析器。结果会是一样的。 | | \[2\] | 因为 `feed` 维护着一个内部缓冲区,当您完成时,应该总是调用分析器的 `close` 方法 (那怕您像我们做的一样,一次就全部送出) 。否则您可能会发现,输出丢掉了最后几个字节。 | | \[3\] | 回想一下,`output` 是我们在 `BaseHTMLProcessor` 上定义的函数,用来[将所有缓冲的输出片段连接起来](basehtmlprocessor.html#dialect.output.example "例 8.9. BaseHTMLProcessor 输出结果")并且以单个字符串返回。 | 像这样,我们已经 “翻译” 了一个网页,除了给出一个 URL 和一种方言的名字外,什么都没有给出。 ## 进一步阅读 * 您可能会认为我的服务端脚本编程的想法是开玩笑。在我发现这个[基于 web 的方言转换器](http://rinkworks.com/dialect/)之前,的确是这样想的。不幸的是,看不到它的源代码。