古籍OCR录入

本次古籍点校工作时间过半,现在只剩下《围棋与棋话》的录入点校了。
最初接下这工作的时候,《围棋与史话》的工作量的评估是10万字,因为这是民国时期印刷体出版物,本以为以自己的打字速度还应付得了,便顺带接下来了。
但开始录入发现大意了。问题主要出在输入法上,现在的拼音输入法,在录入到一定字数后,他们自己对高频字开始犯糊涂,导致选字效率下降。
试用了几个OCR软件,价格高得离谱不说,效果很差。
最后决定使用OCR识别,最初没有选择OCR,是因为本书是繁体竖版,开始使用百度的通用文字识别,果然效果不佳,首先是识别文字是从左开始,且横竖混乱。
今天改为百度高清文字识别后,不止识别率提高,识别顺序也是先右后左,配合繁体转简体功能,效率大大提升。
还是只是传统识别,AI如果介入……,也就那样。

Leave a Reply

您的电子邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>