从一个文件加载一个文档 · 网络爬虫知识汇总

# 从一个文件加载一个文档 <div><h2>问题</h2> <p>在本机硬盘上有一个HTML文件，需要对它进行解析从中抽取数据或进行修改。</p> <h2>办法</h2> <p>可以使用静态 <code><a title="Parse the contents of a file as HTML." href="http://jsoup.org/apidocs/org/jsoup/Jsoup.html#parse%28java.io.File,%20java.lang.String,%20java.lang.String%29">Jsoup.parse(File in, String charsetName, String baseUri)</a></code> 方法：</p> <pre><code>File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); </code></pre> <h2>说明</h2> <p><code><a title="Parse the contents of a file as HTML." href="http://jsoup.org/apidocs/org/jsoup/Jsoup.html#parse%28java.io.File,%20java.lang.String,%20java.lang.String%29">parse(File in, String charsetName, String baseUri)</a></code> 这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误，将抛出IOException，应作适当处理。</p> <p><code>baseUri</code> 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。</p> <p>另外还有一个方法<code><a title="Parse the contents of a file as HTML." href="http://jsoup.org/apidocs/org/jsoup/Jsoup.html#parse%28java.io.File,%20java.lang.String%29">parse(File in, String charsetName)</a></code> ，它使用文件的路径做为 <code>baseUri</code>。这个方法适用于如果被解析文件位于网站的本地文件系统，且相关链接也指向该文件系统。 </p> <br></div>