加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 使用scrapy刮掉没有javascript代码的文本

发布时间:2020-12-16 21:47:57 所属栏目:Python 来源:网络整理
导读:我目前正在使用scrapy设置一堆蜘蛛.这些蜘蛛应该只从目标网站中提取文本(文章,论坛帖子,段落等). 问题是:有时,我的目标节点包含 标签,因此刮下的文本包含javascript代码. Here is a link到我正在使用的一个真实的例子.在这种情况下,我的目标节点是// td [@

我目前正在使用scrapy设置一堆蜘蛛.这些蜘蛛应该只从目标网站中提取文本(文章,论坛帖子,段落等).

问题是:有时,我的目标节点包含< script>标签,因此刮下的文本包含javascript代码.

Here is a link到我正在使用的一个真实的例子.在这种情况下,我的目标节点是// td [@ id =’contenuStory’].问题是有一个< script>标记在第一个子div中.

我花了很多时间在网上和SO上搜索解决方案,但我找不到任何东西.我希望我没有错过任何明显的东西!

HTML响应(仅限目标节点):

我想要的东西:

Some text
Some other text

我得到了什么:

Some text
var s = 'javascript I don't want';
Some other text

我的代码

给定一个xpath选择器我正在使用以下函数来提取文本:

def getText(hxs):
    if len(hxs) > 0:
        l = hxs.select('string(.)')
        if len(l) > 0:
            s = l[0].extract().encode('utf-8')
        else:
            s = hxs[0].extract().encode('utf-8')
        return s
    else:
        return 0

我尝试过使用XPath轴(像child :: script这样的东西),但无济于事.

最佳答案
尝试使用w3lib.html中的utils函数:

from w3lib.html import remove_tags,remove_tags_with_content

input = hxs.select('//div[@id="content"]').extract()
output = remove_tags(remove_tags_with_content(input,('script',)))

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读