使用Python中的PhantomJS向下滚动到无限页面的底部
发布时间:2020-12-20 10:35:20 所属栏目:Python 来源:网络整理
导读:我成功地使用Selenium和PhantomJS来重新加载动态加载的无限滚动页面,如下例所示.但是如何修改它以便不是手动设置一些重载,程序在达到最低点时停止了? reloads = 100000 #set the number of times to reloadpause = 0 #initial time interval between reload
我成功地使用Selenium和PhantomJS来重新加载动态加载的无限滚动页面,如下例所示.但是如何修改它以便不是手动设置一些重载,程序在达到最低点时停止了?
reloads = 100000 #set the number of times to reload pause = 0 #initial time interval between reloads driver = webdriver.PhantomJS() # Load Twitter page and click to view all results driver.get(url) driver.find_element_by_link_text("All").click() # Keep reloading and pausing to reach the bottom for _ in range(reloads): driver.execute_script("window.scrollTo(0,document.body.scrollHeight);") time.sleep(pause) text_file.write(driver.page_source.encode("utf-8")) text_file.close() 解决方法
您可以检查滚动是否在每个步骤中执行了任何操作.
lastHeight = driver.execute_script("return document.body.scrollHeight") while True: driver.execute_script("window.scrollTo(0,document.body.scrollHeight);") time.sleep(pause) newHeight = driver.execute_script("return document.body.scrollHeight") if newHeight == lastHeight: break lastHeight = newHeight 这使用了一个静态等待量,这是不好的,因为你不希望在它完成得更快时不必要等待,并且当动态负载由于某种原因太慢时你不希望脚本过早退出. 由于页面通常会将更多元素加载到列表中,因此可以在加载之前检查列表的长度,并等待下一个元素加载. 对于Twitter,这可能是这样的: while True: elemsCount = browser.execute_script("return document.querySelectorAll('.stream-items > li.stream-item').length") browser.execute_script("window.scrollTo(0,document.body.scrollHeight);") try: WebDriverWait(browser,20).until( lambda x: x.find_element_by_xpath( "//*[contains(@class,'stream-items')]/li[contains(@class,'stream-item')]["+str(elemsCount+1)+"]")) except: break 我使用了一个XPath表达式,因为PhantomJS 1.x在使用时有一个bug:nth-??child()CSS选择器. Full version供参考. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |