自从五一开始,就在为近期,甚至是一直做下去的一个项目做准备工作。
应用及网络系统解决倒是出乎意料的顺利。然后就开始准备内容管理方面的工作。
结果上来就遇到了麻烦。相比国外的电子书,目前仅从数量上而言,国内应用的更多文件格式的是pdf文件。但使用calibre管理电子书的话,对pdf文件并不友好,毕竟是国外的软件。直接浏览pdf文件,浏览器都可以胜任,但是使用calibre管理,每次都把原先排版好好的pdf弄得乱七八糟。
究其原因,是calibre把pdf文件给重新排版了。排版也就罢了,最多多些行列,但它还自作聪明地对pdf文件进行ocr,甚至把围棋书里面的棋谱图片居然也给文字识别了。
系统解决不了,只好解决内容。昨晚上试着将pdf转成图片,在线转换的不少,最后还是使用python自己转换了。转换完了一想,结合百度的ocr,可以整本书进行文字识别了。
面对一堆图片怎么转成epub文件,太晚了也就没有继续。早上起来找了半天转换软件,多是挂羊头卖狗肉之流。想起前几天试着转换亚马逊电子书的时候,原先的连环画转换完了就是一个目录下的一堆图片文件。现在要做的不就是逆回去吗?
有了这个思路,再结合calibre本身电子书支持zip格式,于是将棋谱文件打包为一个zip文件,使用calibre添加,无论是打开zip文件,还是转换后的epub文件,都没有问题了。
看来老了脑子虽然木了些,但要用还是堪用的。