古籍整理尾声有感

从周末开始,文献古籍点校工作进入收尾阶段。这部分没有棋谱,是中国古籍中与围棋相关的文摘,比如《棋经》等文献,以及韦曜的《博弈论》。
本想偷个懒,想从网上找现成的资料,比如百度百科之类相关词条,这样就只是校对一下就好。
谁知复制黏贴后,才发现虽然不知孰是孰非,但网上资料的错误也实在是过于明显,而且同样也存在你抄我抄,最后亲妈都找不到的通病。
古籍的电子化,真是一言难尽。
不过也有所得,那就是对刘禹锡才气的敬仰,真是如滔滔江水……

美食,脱单的动力

儿子马上就要到山西实习,本想请他出去吃一顿,他却没有这个念头,只是想吃鱼。
于是到市场买了一条最大的清江鱼,他调料加指挥,我只是负责翻炒,仿制了一锅青阳炒鱼。
鱼上桌后,儿子尝了一口,颇为满意:这正是他想要的味道。然后对自己的厨艺有了足够的信心。
当我说他以后工作了,就可以自己做自己想吃的大餐了,儿子却叹口气,说:两个人还好,自己一个人做饭还是累,等做完了,累的胃口都没有那么好了。
我赶紧见缝插针加以劝导:那就赶紧找个女朋友,这样两个做饭没有那么累,吃起来还加倍开心。
小光棍这次难得没有抵触,报以赞同的表情。
不过,找个又能干,又能吃,吃了还不胖的媳妇,哪那么容易啊。

泰山队,拖油瓶的命

昨天泰山遭遇联赛有史以来最大的惨败。看完比赛,也就那么回事。今天刷微博的时候,在足球报李主任关于泰山队惨败谁的责任的博文下回复了一句:我的观点正好相反,是从亚冠淘汰那场比赛起,崔康熙一直想把矛盾推到文旅,从而保证自己的利益。文旅烂是明面上了,但崔康熙借以自重,也自跌身份。
难得李主任@了评论,招致后面一堆跟评的。
其实,从去年崔康熙接手泰山后,我就感觉泰山完了。
文旅接手鲁能,泰山队算是成了死了一个妈的孩子,虽说按照蔡明小品里面的话:爹再不是东西,好歹也是爹。这不管是血脉传承,还是街坊邻居的舆论压力。
等崔康熙接手,情况就变了,那句“这可是泰山啊”,也可以理解是后爹看上的就是那点家底。
于是球队真成了拖油瓶的。
至于球迷?
有人在意吗?

收到《陈祖德全谱》

早上进城出门时,收到了新出版的《陈祖德全谱》。
全集共三本,根据参与的棋谱录入数量,集数少了些,但棋谱通过矢量图输出,印刷质量尚好。
22年疫情结束最后几个月,正好封闭在家,时间空余,别接下了棋谱录入的活,友情相助,更是缘分。
没想到两年不到,居然有了成果。
在进城路上,跟小子交流,将来工作了,只要是工作,先接下来,没准做着做着,就成了。
这不是炫耀,也不值得,只是把他爷爷奶奶的话,总结再传下去而已。

难得沙瓤西瓜

去年酷夏,我们爷俩是靠西瓜撑下来的。
只是这些年的西瓜,质量是越来越好,就是块头是越来越大。去年到超市买西瓜时,卖瓜小哥很诧异,我们要把当场把西瓜一切两半。那不是信不过他,只是一个西瓜总不能我们两个合力抱回去吧。
前天难得在沃尔玛看到有卖沙瓤西瓜,一刀纵切开,跟个船似的,掂量一下拿回家比较困难,也就作罢。
今天下班再去沃尔玛,发现那西瓜船又被横切一刀,价格比昨天那一半便宜不了多少。
买回家后,拿勺子我们爷俩就开吃,少见沙瓤还这么脆生。
快吃完了,儿子说,这四分之一西瓜,下次还是用刀切吧。
唉,这几天的脑子真是糊涂了。

怀疑吃到假开封菜

因为儿子今天实习参观误了午饭点,于是便约定到我们中间点上宇宙中心肯德基,午饭晚饭合吃。
结果,我们怀疑吃到了假冒的肯德基。
不过,即便是假冒的,水平也不会如此之差。那香菇鸡和原味鸡炸的,就跟老家小区市场里面裹面炸肉差不多,还是那种水加多了的死面。
那种炸肉要是炸成这样,不到一周估计就要撤摊子了。
不过这家肯德基是在京城见过的座位最多,人数最多的店,也许这就是所说的店大欺客。

也可能担心被我们爷俩吃倒吧。

用心难以二用

使用文字识别功能处理古籍校对后,相比较键盘录入,效率可谓翻倍。虽然机器识别仍有错误,但也在所难免,且对识别结果的核对,也省却了后期的校对环节。
只是效率提高,工作量或者说相应增加。原先处理古籍的时候,还能打开央视网站小窗,自谓两不误。
现在,是忙校对的时候,不用说是画面,连声音都听不进去了,而如果看看关心的片段,那校对工作就必须停下来。
还真没有一心二用之说,如果有,那也不是真正用心。

百度文字识别性能不错

昨晚又测试了一下百度文字识别,对竖版繁体古籍的识别情况。民国时期的出版物,一般在文字中人名、著作名等旁边有竖线,或者波浪线,以进行标识。
识别结果令人满意,那些额外的标识线并没有产生影响。
原先百度的文字识别功能中,普通版与高清版的免费使用额度不同,高清版要少于普通版。现在普通版的额度降低到与高清版持平,但从二者识别结果看,高清版不止是提高了识别精度,还能根据文档的排版情况,自动区分是竖版还是横版,左先还是右先。由此看高清版是全方位的升级版,降低至普通版免费额度后,估计将会完全替代普通版。
而下一步的升级,应该是根据上下文的文字调整了,现在看,还没有这个功能。

文字识别初比较

本次古籍的文档识别,是用的百度提供的高清识别服务,每个月有1千次的免费限额。正常使用,完成本次工作也足够了。
预防起见,再者也想做一个备案,于是又测试了一下腾讯云提供的同功能服务。
测试结果差距不大,但过程中发现,同是通过API提供服务,无论是API代码,还是技术文档,腾讯相比百度,二者水平差距差了近一个档次。
这应该是跟进入领域先后无关,想必只是在钱途不明的情况下,后来者用心不足罢了。

古籍OCR录入

本次古籍点校工作时间过半,现在只剩下《围棋与棋话》的录入点校了。
最初接下这工作的时候,《围棋与史话》的工作量的评估是10万字,因为这是民国时期印刷体出版物,本以为以自己的打字速度还应付得了,便顺带接下来了。
但开始录入发现大意了。问题主要出在输入法上,现在的拼音输入法,在录入到一定字数后,他们自己对高频字开始犯糊涂,导致选字效率下降。
试用了几个OCR软件,价格高得离谱不说,效果很差。
最后决定使用OCR识别,最初没有选择OCR,是因为本书是繁体竖版,开始使用百度的通用文字识别,果然效果不佳,首先是识别文字是从左开始,且横竖混乱。
今天改为百度高清文字识别后,不止识别率提高,识别顺序也是先右后左,配合繁体转简体功能,效率大大提升。
还是只是传统识别,AI如果介入……,也就那样。