python – BeautifulSoup只返回head标签内的内容
发布时间:2020-12-20 13:32:31 所属栏目:Python 来源:网络整理
导读:我正在使用BeautifulSoup,我或者想出了一个错误或错误.在我的例子中,我抓了纽约时报的一个子网站… import urllib2from bs4 import BeautifulSoupwebsite = "http://www.nytimes.com/pages/politics/index.html"data = BeautifulSoup(urllib2.urlopen(websit
我正在使用BeautifulSoup,我或者想出了一个错误或错误.在我的例子中,我抓了纽约时报的一个子网站…
import urllib2 from bs4 import BeautifulSoup website = "http://www.nytimes.com/pages/politics/index.html" data = BeautifulSoup(urllib2.urlopen(website).read()) print data 当我运行代码时,我会返回头标记以及其中的内容.但是,它不会抓取body标签内的内容.如果我要将网站网址更改为http://www.nytimes.com,则BS会返回整页来源.这里发生了什么,为什么我爬到http://www.nytimes.com/pages/politics/index.html时没有得到身体标签? 解决方法
这不是BeautifulSoup中的错误.问题实际上是因为bs4使用内置的HTMLParser,它对格式错误的HTML并不是很宽松,因为
W3C Markup Validation Service显示HTML确实是格式错误的,几乎没有未封闭,流浪和错位的TAGS导致HTMLParser和随后的BeautifulSoup突然停止解析.
以下针对BeautifulSoup提交的错误已解释此问题 BS4 stops parsing after malformed tag (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- OpenCV2.3.1+Python2.7.3+Numpy等的配置解析
- flask开发中遇到AttributeError: 'Config' object
- 我应该在Python中使用哪个Microdata解析器
- python-2.7 – 将Python日期转换为Unix时间戳
- 我怎么能导致Python 3.5崩溃?
- python – 功课帮助?制作一个螺旋形
- python开发_function annotations
- python-3.x – 如何使用boto3(或其他Python)列出_Requester
- python 获取网页图片 保存在本地
- python – sqlalchemy表架构自动加载