💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
**Xpath:** Xpath是一门在HTML/XML⽂档中查找信息的语言,可用来在HTML/XML文档中对元素和属性进行遍历。 文档:http://www.w3school.com.cn/xpath/index.asp <br/> **lxml:** lxml是Python的一个HTML/XML文档解析器,利用`etree.HTML`函数将HTML/XML文档转换为Element对象,然后结合Xpath语法来解析HTML/XML文档节点信息。 <br/> lxml官方文档:http://lxml.de/index.html。 执行`pip install lxml`安装。 <br/> lxml 可以⾃动修正 html/xml 代码,如下为不全的html代码。 ```html <div> <p>xpath,lxml</p> <ul> <li> <strong> Python </strong> </ul> ``` 使用lxml解析: ```python from lxml import etree text = """ <div> <p>xpath,lxml</p> <ul> <li> <strong> Python </strong> </ul> """ # (1)将html文档转换为Element对象 html = etree.HTML(text) print(etree.tostring(html).decode()) ``` 输出如下: ```xml <html><body><div> <p>xpath&#65292;lxml</p> <ul> <li> <strong> Python </strong> </li></ul> </div></body></html> ``` 可见lxml自动补全了代码。