分页 – python中的爬虫的xpath
发布时间:2020-12-20 13:19:43 所属栏目:Python 来源:网络整理
导读:我实际上正在使用 python中的scrapy进行爬虫,我几乎完成了,我只是有一点问题. 网站使用这样的分页: div class="pagination toolbarbloc" ul li class="active"span1/span/li lia href="..."2/a/li lia href="..."3/a/li lia href="..."4/a/li lia href="...
我实际上正在使用
python中的scrapy进行爬虫,我几乎完成了,我只是有一点问题.
网站使用这样的分页: <div class="pagination toolbarbloc"> <ul> <li class="active"><span>1</span></li> <li><a href="...">2</a></li> <li><a href="...">3</a></li> <li><a href="...">4</a></li> <li><a href="...">5</a></li> <li><a class="end" href="...">>></li> </ul> </div> 所以我试着在“活跃”等级之后抓住“href”到balise li. 我尝试这样的事情: next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href' 但它不起作用:IndexError:列表索引超出范围 我只是从xpath开始,我知道它很简单,但在阅读了很多doc之后,我对此并不成功. 非常感谢那些帮助我的人! 解决方法
尝试以下表达式:
//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href 请注意,您在[class =“pagination toolbarbloc”]中错过了@并且li不是ul的兄弟 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |