Beautiful Soup介绍 · Python爬虫

和lxml⼀样，BeautifulSoup也是⼀个HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML数据。 官网介绍如下：（1）Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取需要的数据，因为简单，所以不需要多少代码就可以写出⼀个完整的应用程程序。（2）Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。（3）Beautiful Soup已成为和IxmI一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。 **文档：** https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ **Beautiful Soup与lxml对比：** lxmI只会局部遍历，而BeautifulSoup是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会很大，所以性能要低于Ixml。 BeautifulSoup用来解析HTML比较简单，支持CSS选择器，Python标准库中的HTML解析器，也支持lxml的XML解析器。 BeautifulSoup安装：`pip install bs4` :-: **抓取工具对比** | 抓取工具 | 速度 | 使用难度 | | --- | --- | ---| | 正则 | 最快 | 困难 | | lxml | 快 | 简单 | | Beautiful Soup | 慢 | 最简单 |