如何使用selenium获取特定元素的html源代码?
发布时间:2020-12-14 18:27:13 所属栏目:资源 来源:网络整理
导读:我正在查看的页面包含: div id='1' p text 1 h1 text 2 /h1 text 3 p text 4 /p /p /div 我想获取div中的所有文本,除了 h中的文本. (我想得到“文字1”,“文字3”和“文字4”) 可能有一些 h元素,或根本没有. 并且可能存在一些 p元素,甚至一个在另一个内部,
我正在查看的页面包含:
<div id='1'> <p> text 1 <h1> text 2 </h1> text 3 <p> text 4 </p> </p> </div> 我想获取div中的所有文本,除了< h>中的文本. 我想通过获取div的所有html源代码并使用正则表达式删除< h>来实现此目的.元素.但selenium.get_text不会返回html,只返回文本(全部!). 我知道我可以使用selenium.get_html_source,然后用正则表达式查找我需要的元素,但这看起来很浪费,因为selenium知道如何找到元素. 有没有人有更好的解决方案? 解决方法
以下代码将为您提供div元素中的HTML:
sel = selenium('localhost',4444,browser,my_url) html = sel.get_eval("this.browserbot.getCurrentWindow().document.getElementById('1').innerHTML") 然后你可以使用BeautifulSoup来解析它并提取你真正想要的东西. 我希望它有所帮助 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |