加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python实现爬虫

发布时间:2020-12-20 10:39:24 所属栏目:Python 来源:网络整理
导读:解决print()中文的乱码问题!!! # -*-coding:utf-8 -*-import ioimport sys#改变标准输出的默认编码(改变中文输出的乱码问题)sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘utf8‘) selenium+chrome 浏览器进行爬虫 下载chrome的浏览器驱动
  • 解决print()中文的乱码问题!!!
# -*-coding:utf-8 -*-
import io
import sys
#改变标准输出的默认编码(改变中文输出的乱码问题)
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘utf8‘)
  •   selenium+chrome 浏览器进行爬虫
  • 下载chrome的浏览器驱动(http://chromedriver.storage.googleapis.com/index.html)下载响应chrome浏览器版本(浏览器的版本 在chrome://version/这个网页可以看到)的即可(win32 就行)安装到C:Program Files (x86)GoogleChromeApplication? 下面(exe文件)

  • #导入selenium的浏览器驱动接口
    from selenium import webdriver
    from time import sleep
    #驱动路径 记得前面加r 防止字符转义
    #!!!注意这里必须把驱动程序中的路径写完整,后面必须加上这个chromedriver.exe  否则会报错 执行不成功
    driver = webdriver.Chrome("C:Program Files (x86)GoogleChromeApplicationchromedriver.exe")
    #用driver打开百度页面  后面的地址是百度的地址
    driver.get(http://www.baidu.com)
    # 查找页面的“设置”选项,发送一个你要搜索的值,并进行点击
    # 获取页面名为wrapper的id标签的文本内容
    data = driver.find_element_by_id("wrapper").text
    print(data.encode(GB18030))
    # 打印页面标题 "百度一下,你就知道"
    print(driver.title)
    # 生成当前页面快照并保存
    driver.save_screenshot("baidu.png")
    driver.find_element_by_id(kw).send_keys(人民币)
    sleep(2)
    #并进行点击
    driver.find_element_by_id(su).click()
    sleep(4)
    #退出驱动程序
    driver.quit()

    (参考:https://blog.csdn.net/u010986776/article/details/79266448)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读