自己的博客 – 第 192 页

实战分析再考验katago

Posted on 2019-10-13 | by 512song | Leave a Comment

下午通过新浪观看了梦百合十六强战柯洁对朴廷桓的对局，这已经是当今顶尖棋手的对决了。观战同时把矿卡机打开，通过lizzie调用katago对棋局进行了同步分析，算是对katago能力的再次确认。

新浪的棋谱直播同时不但提供了AI的胜率分析，甚至提供了AI的变化参考图。这样解说员的工作就非常简单了，开始有些类似日本的观战记者那样，主要交代比赛细节了，什么柯洁喝什么，穿什么等等。

不知道新浪用的是什么AI，但水平肯定差不了。katago的硬件虽然寒酸了点，但整体表现不错，虽然胜率分析与新浪AI略有差异，那只是数字而已，优劣势分析还是靠谱的，尤其是决定局势的关键棋的选点基本没有太大的偏差，算是经受了考验。

即便是新浪的专业服务器的AI，和前段时间三星杯唐韦星与朴廷桓对局一样，在涉及到杀棋的局势时，也会慢半拍。对局后半盘柯洁选择在左上角杀棋时，AI开始判断朴廷桓的胜率由不足两位数直线上升到48%，但随即逐步降低，回复到正常的胜率。也让人虚惊一场。

不知是偏重攻击，还是硬件落后，katago对这手棋的判断，倒也“冷静”。由此一战，katago算是经受考验，下一步就是再提升硬件，整理古谱理想的实现，就指望他了。

儿子旁观电影《悟空传》

Posted on 2019-10-12 | by 512song | Leave a Comment

国庆期间，家里电脑利用率挺高的，本来想利用换显卡的机会，测试一下狗狗在高配显卡下的棋艺水平，也只好作罢。
这次节省费用，只换了显卡，里面拖后腿的变成硬盘和内存，一般儿子完成作业后，我都是先退出我的软件，启动他的游戏来节省他那宝贵的时间。
儿子玩游戏时，我们在客厅看看电视，那天为了吸引小子出来看电视，在一堆免费影片里面选了《悟空传》。
现在不太知道儿子读书状况了，但在初中阶段，今何在的《悟空传》在儿子心目中的排名，不敢说前三，前五是应该没问题的。
当时小说改编的电影上映的时候，儿子也曾动心想去观看，但犹豫一下还是没有成行，原因应该是对电影的改编没有信心吧。
幸亏没有去看，片子播放后的花絮中有对制作人员的访问，那导演大谈周星驰对他的影响。我呸，今何在的作品关周星驰什么关系。
影片播放中，儿子并没有停下游戏，只是偶尔出来看上几眼。对影片的评论是：拍成这样不错了，电影也就只能拍成这样了。
这个评价也算是够给面子了，看在原作的面子上多一些吧。

汉字编码扩展难从简

Posted on 2019-10-11 | by 512song | Leave a Comment

有一段时间了，在整理从某知名网站获取的pdf文件的时候，感觉从里面复制内容中的文字显示有些奇怪。后来发现在win7下，这些文字直接不显示了，而是用□代替。

开始以为是字体的问题，使用通用的宋体字代替，但问题依旧。进一步研究，原来是字符集的问题，这些文字属于Unicode扩展编码中康熙字典的部首，共有214个，将这些文字的编码转换为常规的Unicode编码后问题解决了。

国庆期间在学习python的pdf转换text时，又遇到了麻烦转换出来的文字都是正常的，但是康熙字典的部首中的汉字一显示就显示两个同样的汉字，比如：青青、长长等。使用编码替换后大部分解决了，但仍有一些顽固的双胞胎字体存在。又到网上查询一些，原来这些字属于Unicode扩展编码中的中日韩兼容表意文字。

当年我逛英雄山文化市场的时候，进到每个书店，翻上几本书就知道这个书店的档次，其实主要翻看的是中国古籍，印刷质量是一个标准，里面那些异体字等不常见汉字是否错误也是决定出版社水平的标志。

想来这专业网站，为了保证电子文档的专业性，避免出现错字这样的低级错误，在字符集问题上也只能求繁不从简了。

又见虐菜大四喜

Posted on 2019-10-10 | by 512song | Leave a Comment

和四年前世界杯预选赛一样，杨旭一场比赛再进四球，只不过对手由不丹换成了关岛。
不变的是，杨旭依然是软解码中锋。
四年前是佩兰，四年后是里皮。不知道里皮是否像佩兰那样相信杨旭，如果那样，四年来，中国足球退步了，还是漂泊的杨旭保持了自身当然水准？
改打边锋的艾克森焦躁的表情已遮掩不住。可以了，如果不是身为中锋的杨旭脚下发软，他连下半场那个球也捞不着。
杨旭不可重用，这个坑里皮也会栽一次吗？

Python汉字字符编码转换

Posted on 2019-10-10 | by 512song | Leave a Comment

python下由于汉字分属不同unicode的区段，造成转换混乱，尤其是知网之类的pdf文件转换过程中。有时需要根据汉字来判断编码，然后再进行处理。

import json
s = ‘易易’
print(json.dumps(s))

这样可以得到不同的编码：”\u6613\uf9e0″。后一个属于中日韩统一表意文字。

同样

s =’\\u’+’f9e0′
ss = s.encode(‘utf-8’).decode(‘unicode_escape’)

这样可以得到编码对应的汉字。

弃儿firebird

Posted on 2019-10-09 | by 512song | Leave a Comment

那一次处理十万计数据的时候，第一次用到了firebird。因为有其他单位也需要那个程序，而access实在不堪用，而MySQL在Windows下跟Linux下的表现简直不像一个程序，所以选择了firebird的内嵌版，而那速度，堪称飞快。
很多年没有用firebird了，今天到网上看了一下，原先的中文网早已关闭，域名待售中。英文官网还不错，版本终于到了3.0版本，只不过相对于原先服务器版本还分classic和super，现在又加了一个superclassic。
firebird也算是出身名门，老东家Borland在90年代在编程软件领域一度压的微软喘不过气来。其前身是interbase，再往前寻祖还能和dbase沾上亲，而其兄弟delphi更是大名鼎鼎，当年其相关书籍在新华书店书架上阵势和现在的python相当。作为数据库，InterBase因为免费，一度受到各大财务软件的青睐，也因为性能优越，传奇私服的数据库也是用的它，所以我才可以熟门熟路地在老P的私人服务器上，给他打造了一身无上装备。
firebird是脱胎于InterBase的开源版本，但他的开源，说好听是是顺应潮流，说难听就是成了弃儿。Borland从顶峰崩坍式坠落后，其招牌delphi被一卖再卖，最后连名字都未能保住，何况已然落后数据库了。
互联网浪潮的到来，技术的剧变超出任何人的想象，无人能够阻挡，哪怕停留都会被吞没。

混迹IT最好的三年

Posted on 2019-10-08 | by 512song | Leave a Comment

上一次一下倒腾十万条数据已经是14年前了。
那时候算是IT人员，再加上领导支持甚至有些纵容，可以花费大量的时间专心做一些程序，自以为很有用的程序。虽然技术还很粗糙，但好在脑子清楚，思路开阔，总能找到一些解决办法。
现在看到外甥写程序的时候，时而挠头，时而击掌，想来就是我当年的模样。
那个几十万数据的满页帐系统，因为得不到原始数据，但通过发打印命令、kill进程、下载打印文件、分解文件导入数据库，虽然绕弯子笨了点，但在当时条件下也算完美解决了问题。
那三年应该是我技术进步最快，也是最有成就感的三年，也开始从原先c/s转向b/s。
但到了2008年，一切戛然而止。

数据“大”转移

Posted on 2019-10-07 | by 512song | Leave a Comment

前几日将前期整理的数据文件，分解导入MySQL数据库中。使用全文检索，速度满意，但准确度有很大缺憾。
又在网上搜索了相关资料后，准备将资料转入postgresql数据库中再测试一下。先将数据导出，导入费劲，导出35万条记录却只是看看进度条快闪的时间。
但导入到postgresql中时遇到了麻烦，其官方推荐的客户端死活不干活，估计是认出文件不是自家导出的。于是换上dbeaver，误打误撞间，一个界面下，在不同数据库连接中，选择对应的表，鼠标点击几下，数据记录瞬间移形换位。
一方面意外dbeaver深藏不露的高效，另一方面也不得不感慨，这30多万条记录，即便在2g内存的虚拟机下，对于数据库而言，也是不值一提。
只是开始。

安装测试zhparser

Posted on 2019-10-07 | by 512song | Leave a Comment

首先安装SCWS，网上说明有些问题，直接下载后解压，

./configure ; make install

下载zhparser源码：

git clone https://github.com/amutu/zhparser.git

然后编译的时候，因为Postgresql版本安装有点混乱，出现错误，直接安装相关库

sudo apt-get install postgresql-server-dev-all
sudo apt-get install postgresql-common

然后编译成功

make && make install

配置zhparser

CREATE EXTENSION zhparser;


CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser);

ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;

建立全文检索的索引

create index idx_gin_content on content using gin(to_tsvector(‘testzhcfg’,content));

通过建立了索引(gin)的全文检索搜索数据库记录

select * from content where to_tsvector(‘testzhcfg’,content) @@ to_tsquery(‘testzhcfg’,’艾灸’)

学然后重识书

Posted on 2019-10-06 | by 512song | Leave a Comment

昨晚上看屏幕左眼开始流泪，只好关了电脑。看儿子还在做作业，离睡觉给他点眼药水还有段时间。电脑手机看不了，便找本书看。
书架上的书基本转移的差不多了，剩下的计算机类书籍要么是用不着的，要么了了几本是看不懂的。
拿了一本数据分析的书，躺在沙发上随手翻翻打发时间。翻看几页，发现前面当初看不懂的章节内容，居然现在已经看懂了。继续翻看，感觉这本书被低估了，里面内容很有条理，章节设置也是按照从易到难的顺序逐步展开。只不过翻译的水平差一些，略显生硬。
书籍翻了一半，后面章节涉及的内容虽然又超出了我学习范畴，但兴奋的是，还能看懂这正是我近期想要应用的内容。
意外的好书，看来书总是有用的。