全面支持Unicode

blankego · 发表于 2009-2-16 15:52:56

Unicode中有一種特殊字符叫surrogate pair（代理對）。如果是utf16編碼，通常情況下，一個字符就佔用兩個字節。可是兩個字節的容量有限，只能承載Basic multilingual Plane内的字符(BMP--基礎多語言平面），凡65,536個。而實際上，截止於unicode5.0，已編碼字符已達到了102,012個。光是cjkv（中日韓越）的漢字已採錄的就在7萬以上，兩個字節的編碼肯定是不夠用的。

unicode的 cjkv字符最主要的有三組，cjkv unified ideographes (在BMP内，20,924個）、cjkv unified ideographes extension A (也在BMP内，6,582個）和 extension B(在第2平面，42,711個）。擴展B集的字符既然不在BMP内，就要用到連續兩個雙字符編碼的代理對來表示一個漢字（4bytes for 1 character)。

本論壇「康熙字典詞庫」中就有大量的擴展A/B集的字符。據我的觀查，mdict pc 版對擴展AB集的漢字都能正是顯示，但是它的輸入欄卻只接受基本字集裏的漢字。很怪異的是，擴展A集的漢字同樣也在BMP中（兩字節一字）居然也不能識別。

相反如果打開fuzzy查詢的對話窗，則所有3集中的漢字都能正常輸入。

我猜，可能原輸入欄設定的內碼是GBK，或者本地內碼（Window xp內碼雖然是utf16le但文件系統卻用GBK/BIG5），而詞庫內部卻用的是unicode，於是兩者有些參差。

[ 本帖最后由 blankego 于 2009-2-16 15:57 编辑 ]

ny2008 · 发表于 2009-2-16 16:32:48

:loveliness: oo

rayman · 发表于 2009-2-16 17:24:17

设计时输入框的属性设置错了，导致很多字符输入不进去。3.0 RC1中已经改了。有兴趣的可以到QQ群来试一下内测版本。

blankego · 发表于 2009-2-16 19:13:06

rayman君已經知道了，我這個報告成了馬後炮了。:lol
3.0版很值得期待呀

显示全部楼层 · 发表于 2009-2-17 00:53:08

Rayman你的QQ群号是多少啊？我想参加内测，学习需要MDict每天必用，

rayman · 发表于 2009-2-17 09:04:23

群号是: 11731311, 加入时注明"Mdict讨论"

auellington · 发表于 2010-4-9 17:03:52

今天也遇到了同样的问题。

rayman · 发表于 2010-4-10 18:10:36

试试PC版的1.0 RC1...

		自动登录	找回密码
密码			免费注册

[经验交流] 全面支持Unicode

本帖子中包含更多资源

相关帖子

回复 1楼 blankego 的帖子

回复 3楼 rayman 的帖子

本帖子中包含更多资源