Xpath介绍 · 网络爬虫知识汇总

##XPATH介绍 <div> <div> <p><strong></strong></p></div></div><p><span>XPath简介</span> </p> <p>XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和 XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准，而XPath2.0标准的确立是在2007年。W3C关于XPath的英文详细文档请见：<span><span>http://www.w3.org/TR/xpath20/</span></span> 。 </p> <p>XPath是一种表达式语言，它的返回值可能是节点，节点集合，原子值，以及节点和原子值的混合等。XPath2.0是XPath1.0的超集。它是对XPath1.0的扩展，它可以支持更加丰富的数据类型，并且XPath2.0保持了对XPath1.0的相对很好的向后兼容性，几乎所有的 XPath2.0的返回结果都可以和XPath1.0保持一样。另外XPath2.0也是XSLT2.0和XQuery1.0的用于查询定位节点的主表达式语言。XQuery1.0是对XPath2.0的扩展。关于在XSLT和XQuery中使用XPath表达式定位节点的知识在后面的实例中会有所介绍。 </p> <p>在学习XPath之前你应该对XML的节点，元素，属性，原子值（文本），处理指令，注释，根节点（文档节点），命名空间以及对节点间的关系如：父（Parent），子（Children），兄弟（Sibling），先辈（Ancestor），后代（Descendant）等概念有所了解。这里不在说明。 </p> <p><span>XPath路径表达式</span> </p> <p>在本小节下面的内容中你将可以学习到： </p> <div> <div>    - 路径表达式语法</div> <div>    - 相对/绝对路径</div> <div>    - 表达式上下文</div> <div>    - 谓词（筛选表达式）及轴的概念</div> <div>    - 运算符及特殊字符</div> <div>    - 常用表达式实例</div> <div>    - 函数及说明 </div> </div> <p>这里给出一个实例Xml文件。下面的说明及实例都是基于该XML文件。 </p> <p><span>路径表达式语法：</span> </p> <div> <div>    1. 路径 = 相对路径 | 绝对路径</div> <div>    2. XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。</div> <div>    3. 步进表达式=轴节点测试谓词 </div> </div> <p>说明： </p> <div> <div>    1. 其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系（层次关系），节点测试指定步进表达式选择的节点名称扩展名，谓词即相当于过滤表达式以进一步过滤细化节点集。</div> <div>    2. 谓词可以是0个或多个。多个多个谓词用逻辑操作符and， or连接。取逻辑非用not()函数。 </div> </div> <div> 请看一个典型的XPath查询表达式：/messages/message//child::node()[@id=0]，其中 /messages/message是路径（绝对路径以"/"开始），child::是轴表示在子节点下选择，node()是节点测试表示选择所有的节点。[@id=0]是谓词，表示选择所有有属性id并且值为0的节点。 </div> <div>   </div> <div> <span>相对路径与绝对路径：</span> </div> <div> 如果"/"处在XPath表达式开头则表示文档根元素，（表达式中间作为分隔符用以分割每一个步进表达式）如：/messages /message/subject是一种绝对路径表示法，它表明是从文档根开始查找节点。假设当前节点是在第一个message节点【/messages /message[1]】，则路径表达式subject（路径前没有"/"）这种表示法称为相对路径，表明从当前节点开始查找。具体请见下面所述的"表达式上下文"。 </div> <div> <span>表达式上下文（Context）：</span> </div> <div> 上下文其实表示一种环境。以明确当前XPath路径表达式处在什么样的环境下执行。例如同样一个路径表达式处在对根节点操作的环境和处在对某一个特定子节点操作的环境下执行所获得的结果可能是完全不一样的。也就是说XPath路径表达式计算结果取决于它所处的上下文。 </div> <div> <span>XPath上下文基本有以下几种</span>： </div> <div> <div>    -  <div> 当前节点(./)： <br>如./sender表示选择当前节点下的sender节点集合（等同于下面所讲的"特定元素"，如：sender） </div></div> <div>    -  <div> 父节点(../)： <br>如../sender表示选择当前节点的父节点下的sender节点集合 </div></div> <div>    -  <div> 根元素（/）： <br>如/messages表示选择从文档根节点下的messages节点集合. </div></div> <div>    -  <div> 根节点（/*）： <br>这里的*是代表所有节点，但是根元素只有一个，所以这里表示根节点。/*的返回结果和/messages返回的结果一样都是messages节点。 </div></div> <div>    -  <div> 递归下降（//）: <br>如当前上下文是messages节点。则//sender将返回以下结果： <br>/messages//sender : <br><sender>gkt1980@gmail.com</sender> <br><sender>111@gmail.com</sender> <br><sender>333@gmail.com</sender> <br> <br>/messages/message[1]//sender: <br><sender>gkt1980@gmail.com</sender> <br><sender>111@gmail.com</sender> <br> <br>我们可以看出XPath表达式返回的结果是：从当前节点开始递归步进搜索当前节点下的所有子节点找到满足条件的节点集。 </div></div> <div>    -  <div> 特定元素 <br>如sender：表示选择当前节点下的sender节点集合，等同于（./sender） </div></div> </div> <div> 注意：在执行XPath时一定要注意上下文。即当前是在哪个节点下执行XPath表达式。这在XMLDOM中很重要。如：在XMLDOM中的 selectNodes,selectSingleNode方法的参数都是一个XPath表达式，此时这个XPath表达式的执行上下文就是调用这个方法的节点及它所在的环境。更多信息请参见： <span><span>http://www.w3.org/TR/xpath20/</span></span> </div> <div> <span>谓词（筛选表达式）及轴的概念</span>： </div> <div> XPath的谓词即筛选表达式，类似于SQL的where子句. </div> <p> </p> <div> </div><table border="1" cellpadding="2" cellspacing="0"> <tbody> <tr> <td> <div> <span><span>轴名称</span></span> </div></td> <td> <div> <span><span>结果</span></span> </div></td> </tr> <tr> <td> <div> <span>ancestor</span> </div></td> <td> <div> <span>选取当前节点的所有先辈（父、祖父等）</span> </div></td> </tr> <tr> <td> <div> <span>ancestor-or-self</span> </div></td> <td> <div> <span>选取当前节点的所有先辈（父、祖父等）以及当前节点本身</span> </div></td> </tr> <tr> <td> <div> <span>attribute</span> </div></td> <td> <div> <span>选取当前节点的所有属性</span> </div></td> </tr> <tr> <td> <div> <span>child</span> </div></td> <td> <div> <span>选取当前节点的所有子元素。</span> </div></td> </tr> <tr> <td> <div> <span>descendant</span> </div></td> <td> <div> <span>选取当前节点的所有后代元素（子、孙等）。</span> </div></td> </tr> <tr> <td> <div> <span>descendant-or-self</span> </div></td> <td> <div> <span>选取当前节点的所有后代元素（子、孙等）以及当前节点本身。</span> </div></td> </tr> <tr> <td> <div> <span>following</span> </div></td> <td> <div> <span>选取文档中当前节点的结束标签之后的所有节点。</span> </div></td> </tr> <tr> <td> <div> <span>namespace</span> </div></td> <td> <div> <span>选取当前节点的所有命名空间节点</span> </div></td> </tr> <tr> <td> <div> <span>parent</span> </div></td> <td> <div> <span>选取当前节点的父节点。</span> </div></td> </tr> <tr> <td> <div> <span>preceding</span> </div></td> <td> <div> <span>直到所有这个节点的父辈节点，顺序选择每个父辈节点前的所有同级节点</span> </div></td> </tr> <tr> <td> <div> <span>preceding-sibling</span> </div></td> <td> <div> <span>选取当前节点之前的所有同级节点。</span> </div></td> </tr> <tr> <td> <div> <span>self</span> </div></td> <td> <div> <span>选取当前节点。</span> </div></td> </tr> </tbody> </table> <div> 运算符及特殊字符： </div> <p> </p> <table border="1" cellpadding="2" cellspacing="0"> <tbody> <tr> <td> <div> <span><span>运算符/特殊字符</span></span> </div></td> <td> <div> <span><span>说明</span></span> </div></td> </tr> <tr> <td> <div> <span>/ </span> </div></td> <td> <div> <span>此路径运算符出现在模式开头时，表示应从根节点选择。</span> </div></td> </tr> <tr> <td> <div> <span>// </span> </div></td> <td> <div> <span>从当前节点开始递归下降，此路径运算符出现在模式开头时，表示应从根节点递归下降。</span> </div></td> </tr> <tr> <td> <div> <span>. </span> </div></td> <td> <div> <span>当前上下文。</span> </div></td> </tr> <tr> <td> <div> <span>.. </span> </div></td> <td> <div> <span>当前上下文节点父级。</span> </div></td> </tr> <tr> <td> <div> <span>* </span> </div></td> <td> <div> <span>通配符；选择所有元素节点与元素名无关。（不包括文本，注释，指令等节点，如果也要包含这些节点请用node()函数）</span> </div></td> </tr> <tr> <td> <div> <span>@ </span> </div></td> <td> <div> <span>属性名的前缀。</span> </div></td> </tr> <tr> <td> <div> <span>@* </span> </div></td> <td> <div> <span>选择所有属性，与名称无关。</span> </div></td> </tr> <tr> <td> <div> <span>: </span> </div></td> <td> <div> <span>命名空间分隔符；将命名空间前缀与元素名或属性名分隔。</span> </div></td> </tr> <tr> <td> <div> <span>( ) </span> </div></td> <td> <div> <span>括号运算符(优先级最高)，强制运算优先级。</span> </div></td> </tr> <tr> <td> <div> <span>[ ] </span> </div></td> <td> <div> <span>应用筛选模式（即谓词，包括"过滤表达式"和"轴（向前/向后）"）。</span> </div></td> </tr> <tr> <td> <div> <span>[ ] </span> </div></td> <td> <div> <span>下标运算符；用于在集合中编制索引。</span> </div></td> </tr> <tr> <td> <div> <span>| </span> </div></td> <td> <div> <span>两个节点集合的联合，如：//messages/message/to | //messages/message/cc</span> </div></td> </tr> <tr> <td> <div> <span>- </span> </div></td> <td> <div> <span>减法。</span> </div></td> </tr> <tr> <td> <div> <span>div，</span> </div></td> <td> <div> <span>浮点除法。</span> </div></td> </tr> <tr> <td> <div> <span>and, or </span> </div></td> <td> <div> <span>逻辑运算。</span> </div></td> </tr> <tr> <td> <div> <span>mod </span> </div></td> <td> <div> <span>求余。</span> </div></td> </tr> <tr> <td> <div> <span>not()</span> </div></td> <td> <div> <span>逻辑非</span> </div></td> </tr> <tr> <td> <div> <span>=</span> </div></td> <td> <div> <span>等于</span> </div></td> </tr> <tr> <td> <div> <span>！=</span> </div></td> <td> <div> <span>不等于</span> </div></td> </tr> <tr> <td> <div> <span>特殊比较运算符</span> </div></td> <td> <div> <span>< 或者 &lt; </span> </div> <div> <span><= 或者 &lt;= </span> </div> <div> <span>> 或者 &gt; </span> </div> <div> <span>>= 或者 &gt;= </span> </div> <div> <span>需要转义的时候必须使用转义的形式，如在XSLT中，而在XMLDOM的scripting中不需要转义。</span> </div></td> </tr> </tbody> </table> <div> 常用表达式实例： </div> <p> </p> <table border="1" cellpadding="2" cellspacing="0"> <tbody> <tr> <td> <div> <span>/</span> </div></td> <td> <div> <span>Document Root文档根.</span> </div></td> </tr> <tr> <td> <div> <span>/*</span> </div></td> <td> <div> <span>选择文档根下面的所有元素节点，即根节点（XML文档只有一个根节点）</span> </div></td> </tr> <tr> <td> <div> <span>/node()</span> </div></td> <td> <div> <span>根元素下所有的节点（包括文本节点，注释节点等）</span> </div></td> </tr> <tr> <td> <div> <span>/text()</span> </div></td> <td> <div> <span>查找文档根节点下的所有文本节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message</span> </div></td> <td> <div> <span>messages节点下的所有message节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]</span> </div></td> <td> <div> <span>messages节点下的第一个message节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]/self::node()</span> </div></td> <td> <div> <span>第一个message节点（self轴表示自身，node()表示选择所有节点）</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]/node()</span> </div></td> <td> <div> <span>第一个message节点下的所有子节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]/*[last()]</span> </div></td> <td> <div> <span>第一个message节点的最后一个子节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]/[last()]</span> </div></td> <td> <div> <span>Error，谓词前必须是节点或节点集</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]/node()[last()]</span> </div></td> <td> <div> <span>第一个message节点的最后一个子节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]/text()</span> </div></td> <td> <div> <span>第一个message节点的所有子节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]//text()</span> </div></td> <td> <div> <span>第一个message节点下递归下降查找所有的文本节点（无限深度）</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1] /child::node() </span> </div> <div> <span>/messages/message[1] /node() </span> </div> <div> <span>/messages/message[position()=1]/node() </span> </div> <div> <span>//message[@id=1] /node()</span> </div></td> <td> <div> <span>第一个message节点下的所有子节点</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=1] //child::node()</span> </div></td> <td> <div> <span>递归所有子节点（无限深度）</span> </div></td> </tr> <tr> <td> <div> <span>//message[position()=1]/node()</span> </div></td> <td> <div> <span>选择id=1的message节点以及id=0的message节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1] /parent::*</span> </div></td> <td> <div> <span>Messages节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]/body/attachments/parent::node() </span> </div> <div> <span>/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..</span> </div></td> <td> <div> <span>attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。 </span> </div> <div> <span>（..也表示父节点. 表示自身节点）</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=0]/ancestor::*</span> </div></td> <td> <div> <span>Ancestor轴表示所有的祖辈，父，祖父等。 </span> </div> <div> <span>向上递归</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=0]/ancestor-or-self::*</span> </div></td> <td> <div> <span>向上递归,包含自身</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=0]/ancestor::node()</span> </div></td> <td> <div> <span>对比使用*,多一个文档根元素(Document root)</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]/descendant::node() </span> </div> <div> <span>//messages/message[1]//node()</span> </div></td> <td> <div> <span>递归下降查找message节点的所有节点</span> </div></td> </tr> <tr> <td> <div> <span>/messages/message[1]/sender/following::*</span> </div></td> <td> <div> <span>查找第一个message节点的sender节点后的所有同级节点，并对每一个同级节点递归向下查找。</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=1]/sender/following-sibling::*</span> </div></td> <td> <div> <span>查找id=1的message节点的sender节点的所有后续的同级节点。</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=1]/datetime/@date</span> </div></td> <td> <div> <span>查找id=1的message节点的datetime节点的date属性</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=1]/datetime[@date] </span> </div> <div> <span>//message/datetime[attribute::date]</span> </div></td> <td> <div> <span>查找id=1的message节点的所有含有date属性的datetime节点</span> </div></td> </tr> <tr> <td> <div> <span>//message[datetime]</span> </div></td> <td> <div> <span>查找所有含有datetime节点的message节点</span> </div></td> </tr> <tr> <td> <div> <span>//message/datetime/attribute::* </span> </div> <div> <span>//message/datetime/attribute::node() </span> </div> <div> <span>//message/datetime/@*</span> </div></td> <td> <div> <span>返回message节点下datetime节点的所有属性节点</span> </div></td> </tr> <tr> <td> <div> <span>//message/datetime[attribute::*] </span> </div> <div> <span>//message/datetime[attribute::node()] </span> </div> <div> <span>//message/datetime[@*] </span> </div> <div> <span>//message/datetime[@node()]</span> </div></td> <td> <div> <span>选择所有含有属性的datetime节点</span> </div></td> </tr> <tr> <td> <div> <span>//attribute::*</span> </div></td> <td> <div> <span>选择根节点下的所有属性节点</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=0]/body/preceding::node()</span> </div></td> <td> <div> <span>顺序选择body节点所在节点前的所有同级节点。（查找顺序为：先找到body节点的顶级节点（根节点）,得到根节点标签前的所有同级节点，执行完成后继续向下一级，顺序得到该节点标签前的所有同级节点，依次类推。） </span> </div> <div> <span>注意：查找同级节点是顺序查找，而不是递归查找。</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=0]/body/preceding-sibling::node()</span> </div></td> <td> <div> <span>顺序查找body标签前的所有同级节点。（和上例一个最大的区别是：不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环，而只查找当前节点前的同级节点）</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=1]//*[namespace::amazon]</span> </div></td> <td> <div> <span>查找id=1的所有message节点下的所有命名空间为amazon的节点。</span> </div></td> </tr> <tr> <td> <div> <span>//namespace::*</span> </div></td> <td> <div> <span>文档中的所有的命名空间节点。（包括默认命名空间xmlns:xml）</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=0]//books/*[local-name()='book']</span> </div></td> <td> <div> <span>选择books下的所有的book节点， </span> </div> <div> <span>注意：由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']</span> </div></td> <td> <div> <span>选择books下的所有的book节点，(节点名和命名空间都匹配) </span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=0]//books/*[local-name()='book'][year>2006]</span> </div></td> <td> <div> <span>选择year节点值>2006的book节点</span> </div></td> </tr> <tr> <td> <div> <span>//message[@id=0]//books/*[local-name()='book'][1]/year>2006</span> </div></td> <td style="width:340px;height:18px;"> <div> <span>指示第一个book节点的year节点值是否大于2006. </span> </div> <div> <span>返回xs:boolean: true</span> </div></td> </tr> </tbody> </table> <div> <span>函数及说明</span>：  </div> <div> 值得欣喜的是XPath函数和XSLT，XQuery等共享函数库，函数库为我们提供了功能丰富的各种函数的调用，我们也可以自定义自己的函数。这里不再对每个函数的用法逐一说明，英文好点的朋友直接去看看w3关于XPath函数的介绍吧： <span><span>http://www.w3.org/TR/xquery-operators</span></span> 。中文的可以参考这个网站, <span><span>http://www.w3school.com.cn/xpath/xpath_functions.asp</span></span> </div> <div>   </div> <div> <span>XPath在DOM,XSLT及XQuery中的应用</span> </div> <p> </p> <p> </p> <div> <div> <img data-media-type="image" src="http://note.youdao.com/yws/res/10694/840476CE055E41FB9DB46FB107CBC9CD" alt="复制代码" /> </div><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">  <br><html xmlns="http://www.w3.org/1999/xhtml">  <br><head>  <br><title>XPath Test</title>  <br></head>  <br><body>  <br> <br><script language="javascript" type="text/javascript">  <br> <span>var</span> xmlDoc =  <span>new</span> ActiveXObject("Microsoft.XMLDOM");  <br>xmlDoc.async="false";  <br>xmlDoc.load("messages.xml");  <br>xmlDoc.setProperty("SelectionLanguage", "XPath");  <br>     <span>var</span> sPath = "/messages/message[1]//books/*[local-name()='book']";  <br> <span>var</span> bookNodes = xmlDoc.selectNodes(sPath);  <br> <br>document.write("<ul>");  <br> <span>for</span> (  <span>var</span> i = 0; i < bookNodes.length; i++) {  <br>document.write("<li>" + bookNodes[i].childNodes[0].text + "</li>");  <br>}  <br>document.write("</ul>");  <br></script>  <br> <br></body>  <br></html> <br> <div> <img data-media-type="image" src="http://note.youdao.com/yws/res/10694/840476CE055E41FB9DB46FB107CBC9CD" alt="复制代码" /> </div> </div> <p> </p> <div> <span>注意</span>： </div> <div> 我们若使用new ActiveXObject("Microsoft.XMLDOM")则需要注意的是：因为早期的XMLDOM的SelectionLanguage属性默认是正则表达式，不是XPath语言。所以需要指定这样一条语句xmlDoc.setProperty("SelectionLanguage", "XPath"); 以支持XPath查询表达式。. </div> <div> 若没有指定SelectionLanguage属性值为XPath则要注意以下情况： </div> <div> <div>    1.  <div> 数组下标从0开始（我们知道在XPath查询表达式中数组下标是从1开始的） </div></div> <div>    2.  <div> 不支持在XPath查询表达式中使用XPath函数。 </div></div> </div> <div> <span>XSLT</span>： <br>见：我的另外一篇关于如何使用XSLT的一个小示范 <span><span>http://www.cnblogs.com/ktgu/archive/2008/12/14/1354890.html</span></span> </div> <div> <span>XQuery</span>： <br> </div> <p> </p> <div> <div> <img data-media-type="image" src="http://note.youdao.com/yws/res/10694/840476CE055E41FB9DB46FB107CBC9CD" alt="复制代码" /> </div>xquery version "1.0";  <br> <br><ul>  <br>{  <br>let $i := 0  <br> <span>for</span> $x in doc("C:\Users\Administrator\Desktop\messages.xml") <span>//</span> <span>message[@id=0]</span> <span>//</span> <span>books/*[local-name()='book'] </span> <span><br></span>where $x/year>2006  <br>order by $x/year descending  <br> <span>return</span> <li>{ data($x/name) } </li>  <br>}  <br></ul> <br> <div> <img data-media-type="image" src="http://note.youdao.com/yws/res/10694/840476CE055E41FB9DB46FB107CBC9CD" alt="复制代码" /> </div> </div> <p> </p> <div>返回结果</div> <div> <div dir="ltr"> <ul>  <br>    <li>Microsoft Visual C# 2008 Step by Step </li>  <br>    <li>Professional C# 2008 </li> <br></ul></div></div><div><div><div><div dir="ltr"> </div> </div> </div> </div>