python – 是否有可能用beautifulsoup刮掉一个“动态网页”？

发布时间：2020-12-20 13:15:09 所属栏目：Python 来源：网络整理

导读：我现在开始使用beautifulsoup来抓取网站,我认为即使我缺乏关于网页的理论知识,我也掌握了基础知识,我会尽力制定我的问题. 我对动态网页的意思如下：一个HTML基于用户操作而改变的网站,在我的例子中是可折叠表. 我想获取一些“div”标签内的数据但是当你加载

我现在开始使用beautifulsoup来抓取网站,我认为即使我缺乏关于网页的理论知识,我也掌握了基础知识,我会尽力制定我的问题.

我对动态网页的意思如下：一个HTML基于用户操作而改变的网站,在我的例子中是可折叠表.

我想获取一些“div”标签内的数据但是当你加载页面时,html代码中的数据似乎是不可靠的,当你点击它展开的表格时,这个“div”的“类”会从某些东西变化像“一些blabla可折叠”到“一些blabla可折叠活跃”这个我可以用我的知识刮.

我可以使用beautifulsoup获取这些数据吗？如果我不能,我想使用像selenium这样的东西点击所有的表然后下载html,我可以刮,有更简单的方法吗？

非常感谢你.

这取决于.如果在页面加载时已经加载了数据,那么数据可用于刮取,它只是在不同的元素中,或者被隐藏.如果click事件以某种方式触发数据加载,那么不,您将需要Selenium或其他无头浏览器来自动执行此操作.

美丽的汤只是一个HTML解析器,因此通过请求页面获得的任何数据都是唯一可以访问的汤.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!