文字识别初试

上次笔记本罢工前,是想用它测试一下深度学习框架的文字识别,以为它狗狗都能跑起来,没想到吓得罢工了。

后来重装系统后,安装好框架运行那个文字识别系统,结果直接提示out of memory,换矿卡机登场,运行一会之后同样提示后退出。

看来罢工是有原因的。

高级的搞不定,就用现成的。申请了百度的文字识别功能接口,用一张未调整的手机拍摄书页做测试,效果出奇的好。

毕竟百度的免费文字识别有期限,又测试了一下pytesseract,这个也算是出身名门,但对手机拍摄未经处理的图片中的文字识别率差了点。又换成扫描仪扫描的文档,效果立马提升到百度ocr的档次,但是后台运行系统的老笔记本风扇噪音骤起,看了一下cpu占用,linux下到了380%多,应该是四核都快满载了。

最后用百度的ocr处理了扫描完的电子文档,速度很快,效果已经非常满意。毕竟那些文档的清晰度,再想想扫描的过程,不提也罢。

本来为了提高扫描质量,在后期使用了百度文字识别的高精度版,也是书籍的纸张差了点,ocr出来的文字,居然把很多背面的文字给模糊识别出来了,真是晕了…

 

Leave a Reply

您的电子邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>