分页 – python中的爬虫的xpath

发布时间：2020-12-20 13:19:43 所属栏目：Python 来源：网络整理

导读：我实际上正在使用 python中的scrapy进行爬虫,我几乎完成了,我只是有一点问题. 网站使用这样的分页： div class="pagination toolbarbloc" ul li class="active"span1/span/li lia href="..."2/a/li lia href="..."3/a/li lia href="..."4/a/li lia href="...

我实际上正在使用 python中的scrapy进行爬虫,我几乎完成了,我只是有一点问题.
网站使用这样的分页：

<div class="pagination toolbarbloc">
            <ul>
                    <li class="active"><span>1</span></li>
                    <li><a href="...">2</a></li>
                    <li><a href="...">3</a></li>
                    <li><a href="...">4</a></li>
                    <li><a href="...">5</a></li>
                    <li><a class="end" href="...">>></li>
            </ul>
        </div>

所以我试着在“活跃”等级之后抓住“href”到balise li.

我尝试这样的事情：

next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href'

但它不起作用：IndexError：列表索引超出范围

我只是从xpath开始,我知道它很简单,但在阅读了很多doc之后,我对此并不成功.

非常感谢那些帮助我的人！

解决方法

尝试以下表达式：

//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href

请注意,您在[class =“pagination toolbarbloc”]中错过了@并且li不是ul的兄弟

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!