欢迎来我Python萌新的小站

Python实例:利用pytesseract库进行图片文字识别

在做爬虫的时候经常遇到图片验证码。这是一个很蛋疼的东西,我每次都得自己去手动输入抓取的图片验证码。有没有办法可以通过OCR来进行处理图片中的文字呢?

有!

嘛,不过今天这个pytesseract库只是一个基础的文字识别库。

首先当然是需要安装pytesseract库还有图像处理的PILLOW库了,走起——

然后要安装一个Tesseract-OCR软件。这个软件是由Google维护的开源的OCR软件。下载地址:百度网盘(密码:5m3d)。再在Windows下配置一下环境变量。

代码很简单:

效果如下

这个代码对简单的文字识别是没有问题,但是对稍微有一点干扰的图片就无能为力了,所以需要去噪点和干扰线。这个问题还在看,改天写。

2018.2.8 更新:利用pytesseract库进行图片文字识别(二)

喜欢 (8)分享 (0)
(4)个小伙伴在吐槽
  1. 楼主用的什么ide,看起来很漂亮
    河海1232018-07-22 21:44 回复
    • 用的pycharm,哈哈哈
      松鼠男2018-07-25 16:04 回复
发表我的评论
取消评论
友情提示:插入代码时请使用:  <pre>要插入的代码</pre>   以达到最佳效果!

表情     3 + 6 = ? (必填)

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址