爬虫基础之XPATH

 jvxiang   2018-03-22 13:27   130 人阅读  0 条评论

一、简介

XPATH是一种选择XML的语法,由于HTML本质上是一种特殊的XML格式,故在对HTML进行一定的特殊处理后即可兼容XPATH表达式。

现在各大爬虫系统基本上都支持XPATH表达式,主要是因为XPATH看起来比较清晰,上手也不难,并且可以通过简单的语法访问网页中的几乎所有内容,各大浏览器审查元素也支持导出为XPATH。

所以,学习一下XPATH对我们进行一些网页搜索是很有必要的。

二、支持类型

HTML的节点(node)可以分为7种:

- element(元素节点)
- attribute(属性节点)
- text (文本节点)
- namespace (名称空间节点)
- processing-instruction (处理命令节点)
- comment (注释节点)
- root (根节点)

XPATH可以支持这7种节点的选择。

三、基础格式

  1. xpath通过"路径表达式"(Path Expression)来选择节点。在形式上,"路径表达式"与传统的文件系统非常类似。
    # 斜杠(/)作为路径内部的分割符。# 同一个节点有绝对路径和相对路径两种写法。

    # 绝对路径(absolute path)必须用"/"起首,后面紧跟根节点,比如/step/step/...。

    # 相对路径(relative path)则是除了绝对路径以外的其他写法,比如 step/step,也就是不使用"/"起首。

    # "."表示当前节点。

    # ".."表示当前节点的父节点

  2. 选择节点的基本规则
    - nodename(节点名称):表示选择该节点的所有子节点- "/":表示选择根节点

    - "//":表示选择任意位置的某个节点

    - "@": 表示选择某个属性

四、基础实例

这里以XML为例,更加清晰一些。

 

 

  • bookstore :选取 bookstore 元素的所有子节点。
  • /bookstore :选取根节点bookstore,这是绝对路径写法。
  • bookstore/book :选取所有属于 bookstore 的子元素的 book元素,这是相对路径写法。
  • //book :选择所有 book 子元素,而不管它们在文档中的位置。
  • bookstore//book :选择所有属于 bookstore 元素的后代的 book 元素,而不管它们位于 bookstore 之下的什么位置。
  • //@lang :选取所有名为 lang 的属性。

我们可以通过对表达式添加谓语条件(Predicate)进行进一步筛选。所有的条件,都写在方括号"[]"中,表示对节点进行进一步的筛选。

  • /bookstore/book[1] :表示选择bookstore的第一个book子元素。
  • /bookstore/book[last()] :表示选择bookstore的最后一个book子元素。
  • /bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。
  • /bookstore/book[position()<3] :表示选择bookstore的前两个book子元素。
  • //title[@lang] :表示选择所有具有lang属性的title节点。
  • //title[@lang='eng'] :表示选择所有lang属性的值等于"eng"的title节点。
  • /bookstore/book[price] :表示选择bookstore的book子元素,且被选中的book元素必须带有price子元素。
  • /bookstore/book[price>35.00] :表示选择bookstore的book子元素,且被选中的book元素的price子元素值必须大于35。
  • /bookstore/book[price>35.00]/title :表示在例14结果集中,选择title子元素。
  • /bookstore/book/price[.>35.00] :表示选择值大于35的"/bookstore/book"的price子元素。

同时还支持通配符的模式

# "*"表示匹配任何元素节点。

# "@*"表示匹配任何属性值。

# node()表示匹配任何类型的节点。

  • //* :选择文档中的所有元素节点。
  • /*/* :表示选择所有第二层的元素节点。
  • /bookstore/* :表示选择bookstore的所有元素子节点。
  • //title[@*] :表示选择所有带有属性的title元素。

还可以通过|来匹配多个条件

  • //book/title | //book/price :表示同时选择book元素的title子元素和price子元素。
本文地址:https://www.jvxiang.com/爬虫基础之xpath.html
版权声明:本文为原创文章,版权归 jvxiang 所有,欢迎分享本文,转载请保留出处!
PREVIOUS:已经是最后一篇了

 发表评论


表情