xpath基本使用
xpath基本使用一.安装lxml包pip install lxml
二.使用1.使用: from lxml import etree ? # 导包
? 1.获取最外面标签,遍历内部所有的子标签,获取标签文本 content_list =div.xpath(‘.//div[@class="d_post_content j_d_post_content "]/text()‘).extract() 2.正则去掉所有标签 <.*?> re.compile.sub() content_list=div.xpath(‘.//div[@class="d_post_content j_d_post_content "]‘) pattern=re.compile(r(‘<.*?>‘),re.S) content=pattern.sub(‘‘,content_list) 3./text() 获取标签的文本 //text()获取标签以及子标签的文本 content_list = div.xpath(‘.//div[@class=”d_post_content j_d_post_content “]//text()’).extract() 4 使用xpath(‘string(.)’)这种方式获取所有文本 并且拼接 content_list=div.xpath(‘.//div[@class="d_post_content j_d_post_content "]‘).xpath(‘string(.)‘).extract()[0]+‘n‘ 文本内容获取之后print(content_list)查看内容,如需处理格式,则如下: remove = re.compile(‘s‘) content = ‘‘ for string in content_list: string = remove.sub(‘‘,string) content += string ? string方法: content = div.xpath(‘string(.//div[@class="content"])‘).strip() # 获取该div下所有文本组成一个字符串 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- Flash笔记之URLStream和loader域载入swf
- c – 如何连接两个或更多gzip文件/流
- c# – 如何动态更改WPF窗口的大小?
- c# – LINQ to Entities无法识别方法’System.DateTime ToD
- 【翻译】动态图像监测开源代码 motion 学习-----Motion Gui
- 如何用XSL对XML的数据进行按节点排序?
- 单元测试-unit-test的必备的认识
- swift – Xcode 8自动完成需要1分钟才能显示
- ruby-on-rails – 如何在Rails 4 Pipeline中使用Galleria插
- Ajax提交Form表单页面仍会刷新问题的快速解决办法