汉字编码扩展难从简

有一段时间了,在整理从某知名网站获取的pdf文件的时候,感觉从里面复制内容中的文字显示有些奇怪。后来发现在win7下,这些文字直接不显示了,而是用□代替。

开始以为是字体的问题,使用通用的宋体字代替,但问题依旧。进一步研究,原来是字符集的问题,这些文字属于Unicode扩展编码中康熙字典的部首,共有214个,将这些文字的编码转换为常规的Unicode编码后问题解决了。

国庆期间在学习python的pdf转换text时,又遇到了麻烦转换出来的文字都是正常的,但是康熙字典的部首中的汉字一显示就显示两个同样的汉字,比如:青青、长长等。使用编码替换后大部分解决了,但仍有一些顽固的双胞胎字体存在。又到网上查询一些,原来这些字属于Unicode扩展编码中的中日韩兼容表意文字。

当年我逛英雄山文化市场的时候,进到每个书店,翻上几本书就知道这个书店的档次,其实主要翻看的是中国古籍,印刷质量是一个标准,里面那些异体字等不常见汉字是否错误也是决定出版社水平的标志。

想来这专业网站,为了保证电子文档的专业性,避免出现错字这样的低级错误,在字符集问题上也只能求繁不从简了。

 

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>