加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

发布时间:2020-12-17 01:02:37 所属栏目:Python 来源:网络整理
导读:今天暂时就教大家识别最简单的验证码吧,12306的验证码称之为最难的验证码,这点也确实,所以涉及的东西很多,暂时就不去搞12306的验证码了,一般的小白的话也看不懂! 概述 简介 坑! 安装 Tesseract-OCR 使用 pytesseract 识别验证码 高级玩法 - 除线 简介

今天暂时就教大家识别最简单的验证码吧,12306的验证码称之为最难的验证码,这点也确实,所以涉及的东西很多,暂时就不去搞12306的验证码了,一般的小白的话也看不懂!

概述

  • 简介
  • 坑!
  • 安装 Tesseract-OCR
  • 使用 pytesseract 识别验证码
  • 高级玩法 - 除线

简介

首先呢,简单的验证码是这样的:

不是这样的:

进群:548377875 ? 即可获取数十套PDF哦!

pillow 的缘由:由于PIL仅支持到Python 2.7,加上年久失修,于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫Pillow,支持最新Python 3.x,又加入了许多新特性。

32 位系统

pip install PIL

64 位系统

pip install pillow

安装 Tesseract-OCR

在使用 pytesseract 之前,必须安装 tesseract-ocr ,因为 pytesserat 依赖于 tesseract-ocr ,否则无法使用

使用 pytesseract 识别验证码

首先将图像灰度化

二值化的图像是这个样子的:

最后进行识别

# 识别

text = pytesseract.image_to_string(out)

print("识别结果:"+text)

识别结果是这样的:

高级玩法 - 除线

上面的知识简单的处理,在日常网络冲浪中,我们还会遇到这样的验证码:

这个给我们的识别增加了难度,我们要做的就是将这条线去掉。详细代码如下:

那么我们的运行结果是这样的:

总结

经过这么一些折腾,我们总算是看到了我们想要的结果,但是我很遗憾地告诉你,pytesseract 还是无法识别处理过的图片,他的识别结果是这样的:

结果有点令人痛心,不过我们也算是为我们的目标踏进了一小步。你以为这篇文章就这样完了吗?嗯,是的,这篇文章就这样完了。不过好在 pytesseract 提供了自定义训练功能,来提高识别能力(也可以自建神经网络进行识别),这个暂且放到下一篇文章来写吧,因为昨天是七夕耶。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读