换思路解决电子书格式问题

自从五一开始,就在为近期,甚至是一直做下去的一个项目做准备工作。

应用及网络系统解决倒是出乎意料的顺利。然后就开始准备内容管理方面的工作。

结果上来就遇到了麻烦。相比国外的电子书,目前仅从数量上而言,国内应用的更多文件格式的是pdf文件。但使用calibre管理电子书的话,对pdf文件并不友好,毕竟是国外的软件。直接浏览pdf文件,浏览器都可以胜任,但是使用calibre管理,每次都把原先排版好好的pdf弄得乱七八糟。

究其原因,是calibre把pdf文件给重新排版了。排版也就罢了,最多多些行列,但它还自作聪明地对pdf文件进行ocr,甚至把围棋书里面的棋谱图片居然也给文字识别了。

系统解决不了,只好解决内容。昨晚上试着将pdf转成图片,在线转换的不少,最后还是使用python自己转换了。转换完了一想,结合百度的ocr,可以整本书进行文字识别了。

面对一堆图片怎么转成epub文件,太晚了也就没有继续。早上起来找了半天转换软件,多是挂羊头卖狗肉之流。想起前几天试着转换亚马逊电子书的时候,原先的连环画转换完了就是一个目录下的一堆图片文件。现在要做的不就是逆回去吗?

有了这个思路,再结合calibre本身电子书支持zip格式,于是将棋谱文件打包为一个zip文件,使用calibre添加,无论是打开zip文件,还是转换后的epub文件,都没有问题了。

看来老了脑子虽然木了些,但要用还是堪用的。

 

Leave a Reply

您的电子邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>