加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

分页 – python中的爬虫的xpath

发布时间:2020-12-20 13:19:43 所属栏目:Python 来源:网络整理
导读:我实际上正在使用 python中的scrapy进行爬虫,我几乎完成了,我只是有一点问题. 网站使用这样的分页: div class="pagination toolbarbloc" ul li class="active"span1/span/li lia href="..."2/a/li lia href="..."3/a/li lia href="..."4/a/li lia href="...
我实际上正在使用 python中的scrapy进行爬虫,我几乎完成了,我只是有一点问题.
网站使用这样的分页:

<div class="pagination toolbarbloc">
            <ul>
                    <li class="active"><span>1</span></li>
                    <li><a href="...">2</a></li>
                    <li><a href="...">3</a></li>
                    <li><a href="...">4</a></li>
                    <li><a href="...">5</a></li>
                    <li><a class="end" href="...">>></li>
            </ul>
        </div>

所以我试着在“活跃”等级之后抓住“href”到balise li.

我尝试这样的事情:

next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href'

但它不起作用:IndexError:列表索引超出范围

我只是从xpath开始,我知道它很简单,但在阅读了很多doc之后,我对此并不成功.

非常感谢那些帮助我的人!

解决方法

尝试以下表达式:

//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href

请注意,您在[class =“pagination toolbarbloc”]中错过了@并且li不是ul的兄弟

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读