加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 是否有可能用beautifulsoup刮掉一个“动态网页”?

发布时间:2020-12-20 13:15:09 所属栏目:Python 来源:网络整理
导读:我现在开始使用beautifulsoup来抓取网站,我认为即使我缺乏关于网页的理论知识,我也掌握了基础知识,我会尽力制定我的问题. 我对动态网页的意思如下:一个HTML基于用户操作而改变的网站,在我的例子中是可折叠表. 我想获取一些“div”标签内的数据但是当你加载
我现在开始使用beautifulsoup来抓取网站,我认为即使我缺乏关于网页的理论知识,我也掌握了基础知识,我会尽力制定我的问题.

我对动态网页的意思如下:一个HTML基于用户操作而改变的网站,在我的例子中是可折叠表.

我想获取一些“div”标签内的数据但是当你加载页面时,html代码中的数据似乎是不可靠的,当你点击它展开的表格时,这个“div”的“类”会从某些东西变化像“一些blabla可折叠”到“一些blabla可折叠活跃”这个我可以用我的知识刮.

我可以使用beautifulsoup获取这些数据吗?如果我不能,我想使用像selenium这样的东西点击所有的表然后下载html,我可以刮,有更简单的方法吗?

非常感谢你.

解决方法

这取决于.如果在页面加载时已经加载了数据,那么数据可用于刮取,它只是在不同的元素中,或者被隐藏.如果click事件以某种方式触发数据加载,那么不,您将需要Selenium或其他无头浏览器来自动执行此操作.

美丽的汤只是一个HTML解析器,因此通过请求页面获得的任何数据都是唯一可以访问的汤.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读