换思路解决电子书格式问题

自从五一开始，就在为近期，甚至是一直做下去的一个项目做准备工作。

应用及网络系统解决倒是出乎意料的顺利。然后就开始准备内容管理方面的工作。

结果上来就遇到了麻烦。相比国外的电子书，目前仅从数量上而言，国内应用的更多文件格式的是pdf文件。但使用calibre管理电子书的话，对pdf文件并不友好，毕竟是国外的软件。直接浏览pdf文件，浏览器都可以胜任，但是使用calibre管理，每次都把原先排版好好的pdf弄得乱七八糟。

究其原因，是calibre把pdf文件给重新排版了。排版也就罢了，最多多些行列，但它还自作聪明地对pdf文件进行ocr，甚至把围棋书里面的棋谱图片居然也给文字识别了。

系统解决不了，只好解决内容。昨晚上试着将pdf转成图片，在线转换的不少，最后还是使用python自己转换了。转换完了一想，结合百度的ocr，可以整本书进行文字识别了。

面对一堆图片怎么转成epub文件，太晚了也就没有继续。早上起来找了半天转换软件，多是挂羊头卖狗肉之流。想起前几天试着转换亚马逊电子书的时候，原先的连环画转换完了就是一个目录下的一堆图片文件。现在要做的不就是逆回去吗？

有了这个思路，再结合calibre本身电子书支持zip格式，于是将棋谱文件打包为一个zip文件，使用calibre添加，无论是打开zip文件，还是转换后的epub文件，都没有问题了。

看来老了脑子虽然木了些，但要用还是堪用的。