汉字编码扩展难从简 – 自己的博客

有一段时间了，在整理从某知名网站获取的pdf文件的时候，感觉从里面复制内容中的文字显示有些奇怪。后来发现在win7下，这些文字直接不显示了，而是用□代替。

开始以为是字体的问题，使用通用的宋体字代替，但问题依旧。进一步研究，原来是字符集的问题，这些文字属于Unicode扩展编码中康熙字典的部首，共有214个，将这些文字的编码转换为常规的Unicode编码后问题解决了。

国庆期间在学习python的pdf转换text时，又遇到了麻烦转换出来的文字都是正常的，但是康熙字典的部首中的汉字一显示就显示两个同样的汉字，比如：青青、长长等。使用编码替换后大部分解决了，但仍有一些顽固的双胞胎字体存在。又到网上查询一些，原来这些字属于Unicode扩展编码中的中日韩兼容表意文字。

当年我逛英雄山文化市场的时候，进到每个书店，翻上几本书就知道这个书店的档次，其实主要翻看的是中国古籍，印刷质量是一个标准，里面那些异体字等不常见汉字是否错误也是决定出版社水平的标志。

想来这专业网站，为了保证电子文档的专业性，避免出现错字这样的低级错误，在字符集问题上也只能求繁不从简了。

Leave a Reply Cancel Reply