ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
和lxml⼀样,BeautifulSoup也是⼀个HTML/XML的解析器,主要功能也是如何解析和提取HTML/XML数据。 <br/> 官网介绍如下: (1)Beautiful Soup提供一些简单的、<mark>python式的函数用来处理导航、搜索、 修改分析树等功能</mark>。它是一个工具箱,通过解析文档为用户提供需要抓取需要的数据,因为简单,所以不需要多少代码就可以写出⼀个完整的应用程程序。 (2)<mark>Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码</mark>。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。 (3)Beautiful Soup已成为和IxmI一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。 <br/> **文档:** https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ <br/> **Beautiful Soup与lxml对比:** lxmI只会局部遍历,而BeautifulSoup是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会很大,所以性能要低于Ixml。 <br/> BeautifulSoup用来解析HTML比较简单,支持CSS选择器,Python标准库中的HTML解析器,也支持lxml的XML解析器。 <br/> BeautifulSoup安装:`pip install bs4` <br/> :-: **抓取工具对比** | 抓取工具 | 速度 | 使用难度 | | --- | --- | ---| | 正则 | 最快 | 困难 | | lxml | 快 | 简单 | | Beautiful Soup | 慢 | 最简单 |