python定向爬虫实例（三）

发布时间：2020-12-20 11:00:31 所属栏目：Python 来源：网络整理

导读：功能：爬取百度热搜的实时排行榜信息程序设计：爬取百度热搜网页的HTML文本解析HTML文本获取排名、热度信息将获取到的信息以字典的形式存储到文件中代码： # 爬取百度热搜的实时排行榜 # 技术路线：requests---bs4 import requests from bs4 import Bea

功能：爬取百度热搜的实时排行榜信息

程序设计：

爬取百度热搜网页的HTML文本
解析HTML文本获取排名、热度信息
将获取到的信息以字典的形式存储到文件中

代码：

#爬取百度热搜的实时排行榜
#技术路线：requests---bs4
import requests
from bs4 import BeautifulSoup

def getHTML(url):
    try:
        r=requests.get(url,headers={‘User-Agent‘:‘Mozilla/5.0‘})
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return ""

def parseHTML(demo,file_path):
    f=open(file_path,"w")
    soup=BeautifulSoup(demo,"html.parser")
    num_list=soup.find_all(‘td‘,‘first‘)
    title_list=soup.find_all(‘a‘,‘list-title‘)
    for i in range(len(num_list)):
        info_dict={}
        try:
            info_dict.update({
                ‘排名‘:num_list[i].find(‘span‘).string,‘标题‘:title_list[i].string,})
            f.write(str(info_dict)+‘n‘)
        except:
            continue
    f.close()
    print("爬取完毕!")
def main():
    url=‘http://top.baidu.com/buzz?b=1&fr=20811‘
    file_path="D://百度实时热搜排行.txt"
    demo=getHTML(url)
    parseHTML(demo,file_path)

main()

结果：

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!