xpath使用
Xpath和LXML类库 lxml:一款高性能的Python HTML/XML解析器,利用xpath来快速定位特定元素以及获取节点信息。 xpath:(XML Path Language)一门在HTML/XML文档中查找信息的语言,可用来在HTML/XML文档中对元素和属性进行遍历。 Xpath的W3School官方文档:https://www.w3school.com.cn/xpath/index.asp XML和HTML的区别 Xpath常用工具: Chrome插件:XPath Helper(自备梯子) 开源的Xpath表达式编辑工具:XMLQuire(XML格式文件可用) FireFox插件:XPath Checker ? 安装Chrome的Xpath插件(自备梯子) 工具的使用 ? Xxpath获取文本 "a/text()" 获取a标签下的文本 "a//text()" 获取a标签下所有标签的文本 "//a[text()=‘下一页‘]" 根据指定文本来定位该元素 ? @符号 "a/@href" 获取a标签下href这个属性的值 "//ul[@id=‘detail-list‘]" 获取所有id为detail-list的ul标签 ? "//" 1.在xpath开始的时候,表示从当前html中任意位置开始选择。(类似于绝对路径的理解) 2."li//a" 表示的是li下任何一个a标签。(类似于相对路径的理解) ? 使用Chrome自带的工具来生成xpath代码 注意:使用xpath工具或是Chrome自带的工具,都是根据elements中提取的数据。但是爬虫获取的是url的响应,往往和elements不一样,不能直接把工具中的代码拿来用。只有当两者内容一样的时候,才能照着去用。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |