欢迎来我Python萌新的小站

Python实例:利用pytesseract库进行图片文字识别(二)

之前写过一篇关于《利用pytesseract库进行图片文字识别》的文章,那篇文章中,仅仅是做一个简单的demo,用于演示图片文字识别的功能。但是那时候挖了一个坑。在面对验证码的时候,图片的噪点对识别准确性影响很大。今天,针对这个问题,对要识别的图片做一个简单的处理。

之前的代码:

我们今天要识别的是一些简单的验证码图片。图片是爬取某网站的图片验证码来的。

我们需要将图片转化为灰度图:

再通过pytesseract来识别黑白色的数字:

最后将识别出来的数字复制到子目录out中并重命名为识别出来的文字:

最后显示的结果如下:

嘛,虽然看上去好像很美好,但是,目前还是存在很多问题。比如说识别的正确率。因为噪点的干扰,有时候四位的数字会识别出五位甚至六位。目前暂时没有很好的办法。留着坑以后继续填吧。

喜欢 (33)分享 (0)
(6)个小伙伴在吐槽
  1. 这种噪点的图片跑一遍中值滤波就好了。
    悠扬前奏2018-04-25 11:03 回复
    • 哈哈哈,对的对的~~
      松鼠男2018-04-30 19:38 回复
      • 你要重新更新上面的代码呢!不是有更好的办法进行中值滤波吗?怎么弄的?大神
        与世界对讲2018-07-11 11:55 回复
  2. 这真是一个干净全面的Python,应该作者也是一个干净,整洁,大方的人吧,不过如果多一些js逆向分析那就更完美了
    吴方2018-10-31 17:25 回复
    • 哈哈感谢支持,我也只是在python入门中,工作之余学学而已。js逆向等我慢慢学哈~~
      松鼠男2018-12-24 10:43 回复
发表我的评论
取消评论
友情提示:插入代码时请使用:  <pre>要插入的代码</pre>   以达到最佳效果!

表情     0 + 7 = ? (必填)

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址