加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python爬虫代码示例

发布时间:2020-12-17 17:47:17 所属栏目:Python 来源:网络整理
导读:感兴趣python爬虫代码示例的小伙伴,下面一起跟随编程之家 jb51.cc的小编来看看吧。 一个简单的爬虫,两部分组成,下载html和解析html文档。我实现了一个爬取糗事百科的首页的笑话的网络爬虫,大家可以用来参考。 二、python爬虫开发环境的搭建 开发环境:pyt
感兴趣python爬虫代码示例的小伙伴,下面一起跟随编程之家 52php.cn的小编来看看吧。
一个简单的爬虫,两部分组成,下载html和解析html文档。我实现了一个爬取糗事百科的首页的笑话的网络爬虫,大家可以用来参考。

二、python爬虫开发环境的搭建

开发环境:python2.7(win10-64)

开发IDE:pycharm最新版,就OK

使用到的工具包:setuptools,pip,chardet,certifi,idna,lxml,urllib3,requests,beautifulsoup,bs4所有用到的这些包我都打包放在了我的资源里,大家可以去下载,或者,直接在网上下载最新的python工具包。

三、pythonIDE的安装

使用pycharm进行python的项目,在网上很容易下载到,在注册的时候,可以使用关键字(pycharm,2017,注册码),给大家一个参考。
 
# coding=utf-8
 
import requests
from bs4 import BeautifulSoup
 
# 获取html文档
def get_html(url):
    """get the content of the url"""
    response = requests.get(url)
    response.encoding = 'utf-8'
    return response.text
    
# 获取笑话
def get_certain_joke(html):
    """get the joke of the html"""
    soup = BeautifulSoup(html,'lxml')
    joke_content = soup.select('div.content')[0].get_text()
 
    return joke_content
 
url_joke = "https://www.qiushibaike.com"
html = get_html(url_joke)
joke_content = get_certain_joke(html)
print joke_content

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读