加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python bs4 BeautifulSoup

发布时间:2020-12-20 10:53:38 所属栏目:Python 来源:网络整理
导读:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。 安装 命令 : pip install beautifulsoup4 ? 解析器 主要的解析器,以及它们的优缺点如下: 安装命令: pip install lxml pip in

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。

安装


  • 命令pip install beautifulsoup4?

解析器


  • 主要的解析器,以及它们的优缺点如下:

安装命令:

  • pip install lxml
  • pip install html5lib

requests


  • ?requests的底层实现就是urllib,?requests能够自动帮助我们解压(gzip压缩的等)网页内容
  • 安装命令:pip install requests
  • 推荐使用 response.content.deocde() 的方式获取响应的html页面

pandas


  • 安装命令:pip install pandas?
  • 基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

?数据结构:

  • Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
  • Time- Series:以时间为索引的Series。
  • DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
  • Panel :三维的数组,可以理解为DataFrame的容器。

使用


Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

  • Tag?
  • NavigableString?
  • BeautifulSoup?
  • Comment?

Tag:Tag 对象与XML或HTML原生文档中的tag相同,tag中最重要的属性: name和attributes

?

从网页中获取指定标签、属性值,取值方式:

  • 通过标签名获取:tag.name? ? ? ? tag对应的type是<class ‘bs4.element.Tag‘>
  • 通过属性获取:tag.attrs
  • 获取标签属性:tag.get(‘属性名‘)? 或? tag[‘属性名‘]

功能标签

  • stripped_strings:输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容
  • 标准输出页面:soup.prettify()

查找元素:

  • find_all(class_="class")? ? 返回的是多个标签
  • find(class_="class")? ? 返回一个标签
  • select_one()? ? 返回一个标签
  • select()? ? 返回的是多个标签
  • soup = BeautifulSoup(backdata,‘html.parser‘)  #转换为BeautifulSoup形式属性
  • soup.find_all(‘标签名‘,attrs{‘属性名‘:‘属性值‘}? )? ? ?#返回的是列表
  • limitk 控制 find_all 返回的数量
  • recursive=Flase 返回tag的直接子元素

demo


?

import sys
import io
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
from py_teldcore import sqlserver_db as db

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)

url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.html"


def get_soap():
    try:
        r = requests.get(url)
        soap = bs(r.text,"lxml")
        return soap
    except Exception as e:
        print(e)
        return "Request Error"


def save2cvs(data,path):
    result_weather = pd.DataFrame(data,columns=[‘date‘,‘tq‘,‘temp‘,‘wind‘])
    result_weather.to_csv(path,encoding=‘gbk‘)
    print(‘save weather sucess‘)


def save2mssql(data):
    sql = "Insert into Weather(date,tq,temp,wind) values(%s,%s,%s)"
    data_list = np.ndarray.tolist(data)

    # sqlvalues = list()
    # for data in data_list:
    #     sqlvalues.append(tuple(data))

    sqlvalues = [tuple(iq) for iq in data_list]

    try:
        db.exec_sqlmany(sql,sqlvalues)
    except Exception as e:
        print(e)


def get_data():
    soap = get_soap()
    print(soap)
    all_weather = soap.find("div",class_="wdetail").find("table").find_all("tr")
    data = list()
    for tr in all_weather[1:]:
        td_li = tr.find_all("td")
        for td in td_li:
            s = td.get_text()
            data.append("".join(s.split()))

    res = np.array(data).reshape(-1,4)
    return res


if __name__ == "__main__":
    data = get_data()
    save2mssql(data)
    print("save2 Sqlserver ok!")

  

?

参考资料


  • https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
  • https://www.jianshu.com/p/95b1bc3b2f73
  • http://cn.python-requests.org/zh_CN/latest/
  • https://blog.csdn.net/qq_31903733/article/details/85269367

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读