默默服务的百度

昨天开始搜集整理一些高考资料,一是早做准备,因为现在网上的资料实在是有些不靠谱,而那些收费的,同样未必靠谱。再就是也算是为学习做一些数据测试。
搜集的时候发现,资料的确不是很全面,更谈不上规范,估计是当初搜集的时候数据来源不同,只是照搬了。其中好的网站提供内嵌广告的Excel文件,有的资料是网页版,不少依然是那种分辨率不高的图片,而且右下角的水印还是重叠的。
Excel文件最好,网页版也凑付,只是图片版的表格不太合用。今天想起上次测试百度文字OCR接口的时候,里面也提供表格识别,于是测试了一下。
测试参照的一篇文章特别提示,效果很一般。经过实际测试,可能这几年的技术更新,效果还是不错的。文字识别率基本完美,表格中的数字本身识别率也非常高,出错主要出错在首位和末尾数,还出现了前面一格中的末尾数字跑到后面一个最前面的情况。
整体还是满意的,虽然每天免费次数只有50次,但作为应急工作还是堪用的,毕竟手工录入也会存在偏差。
最近对百度的印象好了很多,这就是所说的吃人家的嘴短吧。

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>