|
本帖最后由 eeshu 于 2023-10-15 20:33 编辑 - X* O% h! e' I* ]* M
4 y& c3 n- j, E9 m" d: d5 y. g简要提示:本次字体更新新增Unicode 15.1 I区字形,部件检索功能键重新布局。其他说明,见以下WFG兄的详细说明。
# a( K1 N9 v' c T% }& R1 G另外,借此贴向W兄及本帖末尾提及的这些令人尊敬的朋友致以敬意,是他们无私不懈的付出才成就了这项伟大的事业。
( J! ] K6 Q" |; [: q以下文字引自W兄博客https://fgwang.blogspot.com/2023/10/unicode-151.html% x* A* [. m- }/ S3 m& `
——————————————————————————————————————————————————————————————————————9 u8 Q* O, v0 b/ _0 f
全新的嘗試; x2 o* X* `$ `. F9 ^: q0 }2 w
「部件檢索」發布於 2015 年,八年來一直穩定地擔負著檢索「難檢漢字」的工作。期間歷經多次的擴編漢字,由最早的七萬多漢字到現在的近二十萬。也做了一些小改進,但整體的運作方式基本上並未改變。這一次的改版,我大膽嘗試了一項新的——「異體檢字」功能,讓「部件檢字」與「異體檢字」得以混合使用、相互支援,這讓檢字的操作能夠更加地靈活、方便,堪稱是一項突破性的創舉。
5 z% B& S9 h C. q6 {: ]' ~
8 s, f; w: H$ D7 `6 R: L% e5 Y: n* A- g G# u$ Z/ Z9 q$ u
異體檢字
5 z+ _+ ?+ K2 k8 q8 j; V+ D其實「異體檢字」的想法我已醞釀多年。最早只是個模糊的概念,知道要往這方向努力,但說不上來該怎麼做、能做些什麼?直到完成了《教育部異體字字典》的字頭清理工作,這想法才逐漸清晰起來,但具體該怎麼做?仍是毫無頭緒。$ u$ u" w5 `) t0 x1 j
% q" @; X$ L2 i
隨著一次次的擴增漢字、更新字庫,我也不斷在思索,該怎麼把「異體檢字」功能融合進「部件檢索」裏?資料該怎麼安排、記錄?又該如何運算? R( i% d. \5 l8 z9 q+ s* j
3 L, ?1 @$ l) j: F直到「漢字構形資料庫」的字頭清理完畢,能完整展現它的異體字表(以《漢語大字典》第一版的異體字表為基礎)後,一切時機似乎都成熟了。於是開始動手,花了一天的時間修改程式、調整操作介面,做出了一個雛形。又經過一段時間的試用、改進,終於實踐了我的想法,把「異體檢字」功能正式推上檯面。
! v2 T3 U: h+ W4 g8 F8 e2 }
# b6 h* G6 m6 }6 C
3 f0 B( w( U m0 S7 k" G. W6 Y回顧這一路走來,雖然並沒有明確地計劃,但無形中我的不成熟想法,卻似乎一路引領著我朝著特定的方向前進,結果卻像是個有系統的漸次推進,逐步完成了相關數據的收集,讓醞釀多年的想法,得以「一夕成形」。
5 s( v) }5 [6 S! u2 w: p4 s- \ I) B8 S& f0 T/ |* j$ n
- G- }/ k' O3 V% g2 b介面調整
' k) _9 U6 k8 [8 V; R2 t8 K因應新的異體檢字功能,操作方式略有調整:
- J9 c( c3 [. a: w7 V2 W& U略微調動了畫面元素,讓垂直方向的版面更爲緊湊,以便有更多空間可以顯示查詢結果。3 f V5 H; J N+ t9 W' _
廢除了複製模式的切換,現在不管是「虛擬鍵盤」或是「查詢結果」統一都是點擊滑鼠右鍵可以直接複製。隨時點擊隨時複製,不再需要切換模式。
; M, E, P2 Z, N; v1 V# f「查詢結果」的每個字塊,現在分做田字形的四個區域,左鍵點擊不同區域各有不同功能,如版面右上角的圖例所示。例如左鍵點擊字塊的左上角是查詢該字的異體字,點擊字塊的右下角預設是跳轉字統網查字。
% E- ?1 j7 x0 u5 u2 o/ k- t除了原先「黑三角按鈕」的「部件查字鍵」外,新增一個「白三角按鈕」的「異體查字鍵」,可以直接在輸入框打入想查的字,再按「白三角按鈕」(或者 Shift + Enter)即可查出所有異體字。輸入框若已輸有很多字,不必消去,直接反白選擇想查的字,再按「查字鍵」即可。" h$ R# p$ R4 }; y
異體字的查詢結果,以「正體字」領頭(橘色虛線框標示),其他異體字跟隨其後。若該字分屬於多組異體字關係,則依序折行將多組異體關係列出。
9 e, K% _2 n) E4 i4 a目前異體數據只是快速地粗定,《異體字字典》與《漢字構形資料庫》的異體字表有一千多組有衝突,雙方認定的正體字多有不同,必須人工一一校閱調整。尚有八百組待查,還在慢慢努力優化之中。另外簡繁漢字的異體關係也須進一步整理、增添,日後會逐步優化。
5 P+ L! z4 B3 N1 N8 U5 X
& F7 u( T; F& c4 l
+ Q7 {" W1 R7 q: J/ ^9 o7 S操作實例& l# P: E8 P5 k* V; `
9 J" _! c, [$ ]; L9 Y
" Q- I5 Z3 ~- k0 l4 {例如要檢索「????」這個字(字見於宋刊本《玉篇》):
7 F% N ]8 A6 k6 F4 W此字右旁的部件「????」略為麻煩,需拆為「⺈㔾丶」來輸入,但知道是「色」字異體,因此可以先在輸入框中輸入「弗色」兩個部件,接下來:! r/ \+ f: g. m
5 I1 t3 H* p8 H1 L方法一:按一下「部件查字鍵」即可查得「艴」字。
8 w1 G0 F, q$ ]& e4 B" `1 i4 E! o% n
) n: z/ z0 y* h+ J9 j然後左鍵點擊「艴」字字塊的左上角,即可查得「艴」字的異體字「????」字。
# n4 s6 D6 G4 D& t c6 }" m9 `, r: ^( @; T. X; B: j d/ W* P% y
; h' T, ^# P$ ]2 {方法二:反白選取「色」字,再按一下「異體查字鍵」即可以查得「色」字的異體「????」字。5 q [4 B+ ~- u6 `- E
! d! Q5 R; G9 j0 G2 @' X/ M左鍵點擊「????」字字塊的右上角,「????」字即會替換輸入框中原先的「色」字,再按一下「部件查字鍵」即可查得「????」字。
$ K u9 p- c( m# G( k# Q, q
d8 q; _' D/ N
1 T" C( \2 h; M( [- \2 s1 @5 K方法二的操作步驟雖然較多,但若希望能打出精確的部件時,可以用此法。只要靈活地交替使用「部件檢字」與「異體檢字」的功能,便可以快速地檢索到想要檢索的字,十方便利。
# i( V$ N$ r' |- u: c" F: ^* Q" M# Y" o9 F
& I7 l" W7 O& X! b D; L3 O- m+ i
擴展 I 區6 W% \1 s4 n! k, [+ a: B) s) S
最新的 Unicode 15.1 已經於 9 月 12 日正式發布,對於漢字來說最主要的就是新增了 622 個擴展 I 區字形。這一版的全宋體與部件檢索已經完全支援新的 I 區字形,遷碼表也已完成,共計有 229 個既有的補充字被收入擴展 I 區,也就是對「全宋體」來說實際上只有 393 個字真正屬於新增。這既有的 229 個補充字已經予以註銷,遷往擴展 I 區所定義的新碼位。我花了一天的時間將我製作的四百多部詞典全部完成遷碼,如果您的文件曾使用到這些補充字,建議您儘快利用我所提供的 I 區遷碼表完成遷碼的動作,否則一旦更新了全宋體就會導致這些字無法正確顯示。
0 N! o7 G7 h2 a% `2 o3 B: e, d- Z9 Q( Y C
1 f G6 k5 f; _. r
零星增字3 ~' Z, I3 l4 T- L- Z" J
除了擴展 I 區之外,事實上這一版的「全宋體」還增收了一些新字。
) I4 o/ h- |0 A5 v6 u! k& w
' C! v0 }$ V! S「漢字構形資料庫」裏整理有《中文大辭典》的字頭索引,但不知何因,只收錄了 47974 個字頭,與紙本實際的 49905,短少了 1931 個。這部分八月初央請了 suns99 兄幫忙,辛苦地逐一查閱紙本,歷時一個月,把近兩千個缺漏字頭補上。我再針對缺字,新造了近二十個字形,終於補全了《中文大辭典》的所有字頭。. W2 x" a+ j) y/ u) e& H$ _
0 y5 ]5 {5 d9 I
《全唐詩》是詩詞領域裏一部重要的彙編,這次的「全宋體」也補全了《全唐詩》的所有缺字(依據中華書局本《全唐詩》,《全宋詞》則早前即已補全),讓大家在摘錄、引用這些詩詞時,不再需要忍受缺字的痛苦。. o3 K5 u/ t5 T4 }3 P
" D# a% m3 p$ q( k% G }
另外論壇的 klwo 兄也提供了《古白話詞語彙釋》的詞頭缺字統計,我據以新造了 18 個字形,補足了所有的詞頭用字。此外 Mastameta 兄也陸續匯報、提供了一些缺字字形,還有就是零星補造了一些整理字書時發現的缺字。相比於上次更新,總計共增添了四百六十餘字。
# a0 O5 H7 Y" O6 e2 d9 G& _: Q4 S2 M% \6 ]
2 i Q3 f- g% r) x* J# s* ~, R' b% ~2 M字形優化3 ^3 T6 X4 R1 ^6 e$ D$ z
上次更新時提到「漢字構形資料庫」有 10654 個字形屬於既收字,這些字形可擇其優者替換掉「全宋體」原先質量較差的字形。這項工作前次未及完成,現在已經全部完成,共優化了數千個既收字形,提供了更好的字形品質。9 I( j& M6 N7 E X# S' y/ x
: n; Q' [5 ]' ^, U. Y/ c h# |& x* j0 Y& S
優化拆分/ f' H) N: i* ~1 {6 g. K4 S; h8 y/ y' M
當初向國教院申請的《教育部異體字字典》拆分數據,部件殘缺的情形十分嚴重,但由於數量龐大,一直以來我僅能邊用邊小幅度地修正,抽不出時間大規模修訂。八月中旬 Walter Pai 兄終於跳進來幫忙,協助校訂這些有瑕疵的拆分數據。九月初完成了第一批三千字的校訂,經我粗略潤飾,已經加入「部件檢索」替換掉原始的瑕疵數據,讓這三千補充字能更正確地被檢索,大幅降低了漏檢的可能性。後續大約還有一萬餘字待校,Walter Pai 兄還在努力之中,只要有新的進度,我會陸續更新給大家。
0 K9 L8 D( x2 C' f* ^, T# o) S- V7 m4 r6 W4 [% c( D: }" f
1 I$ @, Q$ \# D8 h! Q
未竟之工
( q+ _8 Z% N3 B: q+ y( S; ^% j2 H9 S原本預計今年的上半年要將「漢字構形資料庫」的字頭清理完畢,下半年則開始回到「CBETA 缺字資料庫」的整理工作。前一件已如期完成,但依我目前的工作量能,十月中仍未能開始,後一件應該是難以達標了。照顧家中兩老,嚴重地壓縮了我所能支配的工作時間。不過我不會放棄,慢慢做,總有一天我能把「CBETA 缺字資料庫」的整理工作完成。& N. T- C! l: K# q% Z* t$ _2 [
' ~% N- Q9 V7 J% m; }
, I+ n( L2 a% X( L8 o5 [鳴謝 K* N0 t; y8 q; d
感謝這些原字型製作單位與作者的無私奉獻。. u1 D$ C) i4 r
感謝老友 suns99 兄,總是不離不棄地與我並肩作戰。
( t3 C2 M7 c7 M! r5 u感謝老友紫雪藍海兄,提供了許多數據,供我整理之用。
, }- @6 M4 C- ~3 A. o感謝好友 Mastameta 兄,陸續提供了一些勘誤與優化字形供我替換。7 H; v/ I3 s! p7 U7 V2 x5 O
感謝好友 Walter Pai 兄,辛苦地協助校訂拆分數據。 D1 _, w0 |: L: U
感謝好友 klwo 兄,提供了許多索引數據,供我增補缺字。
* n( d3 U) h" E- k" h0 D# {
; y+ R4 y$ P* e; v) O8 E3 j$ d! a r M1 U3 q( K: s! n' Q
現將此成果無條件分享出來,樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。) m& W, h0 V! v' R/ @/ v
0 i, \* d ^1 q) ^
链接:链接:[url]https://pan.baidu.com/s/1qbFkSS69owMOUkQs_vf5Ug[/url]
; b9 C r" M; f* u4 l+ a提取码: |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|