ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
# lxml 1. pip安装 >pip install lxml 2. wheel安装 >https://pypi.org/project/lxml/#files >pip install lxml-4.2.5-cp37-cp37m-win_amd64.whl 3. 验证安装 import lxml # Beautiful Soup - pip安装 >pip install beautifulsoup4 - 验证安装 ``` from bs4 import BeautifulSoup soup = BeautifulSoup('<p>Hello</p>','lxml') print(soup.p.string) ``` # pyquery 1. 相关链接 >https://pyquery.readthedocs.io/en/latest/ 2. pip安装 >pip install pyquery 3. wheel安装 >https://pypi.org/project/pyquery/#files >pip install pyquery-1.4.0-py2.py3-none-any.whl 4. 验证安装 import pyquery # tesserocr 1. 相关链接 >https://digi.bib.uni-mannheim.de/tesseract/ 2. Windows下安装,双击运行`tesseract-ocr-setup-3.05.01.exe`,此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,语言较多,下载时间会比较长,请耐心等待,然后一路点击Next按钮即可。 3. 安装完成后,需要设置两个环境变量 $PATH(直接填入安装的路径) 和 $TESSDATA_PREFIX(这个需要新建) 4. 验证安装 `tesseract -v` 5. wheel安装tesserocr >https://github.com/simonflueckiger/tesserocr-windows_build/releases >pip install tesserocr-2.3.1-cp37-cp37m-win_amd64 6.