掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

123
返回列表 发新帖
楼主: tsiank

[工具] 汉语大词典光盘版3.0及提取工具

[复制链接]

该用户从未签到

 楼主| 发表于 2016-5-18 16:06:12 | 显示全部楼层
gnoweb 发表于 2016-5-17 23:03
9 z: K4 m# \# [1 j7 |已修正。
* B7 N  d  C% j
忙活了這麼久,終於把我的排版也搞定了,數據優化到了200多兆,和你的大小差不多了。光盤版的還有一個問題,就是一個義項下又有許多小項釋義時,比如“青”字,並沒有排版,看着有些亂,需要在這些地方自己排版一下。不過正則匹配肯定有照顧不周的地方。另外,字頭詞頭的小標號是有一定的注音提示意義的,所以建議還是保留爲好,並且可以做成直接跳轉到指定位置。比如“參見參3”,點擊後可以直接跳轉到“參3”這個字頭。字頭下的詞條列表可以設爲摺疊模式,需要時可以點擊查看,或者完全隱藏,不然太佔位置了。7 r$ S4 ^7 k( S0 w& E6 r! m5 }

( H! p" E  a; B% |' b
2 V. ~7 R+ N' j0 D% @6 Q- B& v

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2016-5-18 16:08:12 | 显示全部楼层
本帖最后由 gnoweb 于 2016-5-18 16:11 编辑
, S! f6 t+ K1 }" R& @, x1 a
coolsummer 发表于 2016-5-18 15:35
+ A/ V* j. g5 l8 F' w& A与WFG大讨论时,WFG大又指出一项差异,gnoweb大的撷取似乎还是漏失了一些讯息,见图:
: R" l5 x4 ^, d, g1 p
0 U- Y# G8 T  v! v( e/ [" W/ c! B
单独提出的词目里没有保留第一个字的编号信息。可以自行回退入第一个字目查阅。单字目下都保留了各自的词组链接。
, r2 o, y# H2 w" {9 ~# H8 L' x' ]" Y  c  n3 P6 T4 E

该用户从未签到

 楼主| 发表于 2016-5-18 16:08:29 | 显示全部楼层
coolsummer 发表于 2016-5-18 15:35! S# l8 _0 O: P5 v* ]& y& q
与WFG大讨论时,WFG大又指出一项差异,gnoweb大的撷取似乎还是漏失了一些讯息,见图:
# }* _7 s5 K9 ^$ ?- z; k- O
這個我知道,所以我都保留了,並且點擊時可以直接跳轉到相應位置。
7 Q/ |5 R6 W( H! [2 e* a* M

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2016-5-18 16:13:39 | 显示全部楼层
tsiank 发表于 2016-5-18 16:069 L9 V$ Z8 w/ l8 c1 @, d
忙活了這麼久,終於把我的排版也搞定了,數據優化到了200多兆,和你的大小差不多了。光盤版的還有一個問 ...
. Y$ o) ?1 `5 ?* E
好的。随后有时间可以优化一下。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-5-18 16:16:38 来自手机 | 显示全部楼层
    真漂亮!WFG是哪位大神呀?

    该用户从未签到

     楼主| 发表于 2016-5-18 16:30:16 | 显示全部楼层
    liuyunrushui 发表于 2016-5-18 16:16
    4 H4 H- r( R% a1 ?5 o; M真漂亮!WFG是哪位大神呀?

    % Q- k- ~# A* \9 z" N  U對岸一位網友:。http://blog.xuite.net/fg_wang/twblog/106485207  需要fq.

    该用户从未签到

    发表于 2016-5-21 11:13:03 | 显示全部楼层
    光盘版3.0數據的問題, 供大家參考:# X0 Q. ^# f7 @2 v$ [
    / N2 e+ Y7 k% j9 n2 M% ^
    1. http://blog.xuite.net/fg_wang/twblog/106485207 由 WFG 提到的 [爰] [胡然] [能始] [丑] [厂]
    % o, X: R" B8 U
    3 |9 S9 q6 R  U7 c, x0 d0 \% [: ~2. http://www.guoxue.com/?p=4453 提到的 [夜叉] [老饕] [裳] $ Y' T  Y" l! m" G! H
    ' }& J0 |1 z  g, m
    3. ",," 有64處, 經與原書逐一確認, 全部都是 "," 4 Q, ?2 R& j# q* X. A0 _- B1 X
        目前看到所有的文本版都有相同問題, 還有"。。" 29處待確認.
    2 \5 P; m7 q+ \
    4 n0 b$ I/ K: Q* s/ e( c4 F4. [喪]
    $ S2 B. |& S) e* I0 n3 p”`《三國志·魏志·武帝紀》
    3 x3 U; }% r+ o7 @8 O! y* c=>
    0 n4 Q+ I+ F& \/ o% D! x”</LZ><LZ>《三國志·魏志·武帝紀》
    5 g3 M. w( I1 T7 d7 N# y9 y9 f. M7 R: b, T3 L* Q6 b8 a! b" Q
    5. [翟]1 n: G( v! X7 Y8 w' X6 f
    這些孩子。”``+ t  R6 d) V5 m7 K5 h, d7 V6 ]2 F
    =>, g5 X- f4 ~0 S2 p  w; ]" b( L! i
    這些孩子。”
    ( y& T* X) t. @: P7 [) Q5 v! P, h. p  k3 P6 S0 j9 u
    6. [名貿實易]9 o8 L" k  @) t% y/ l1 g, B5 h& M
    謂名稱相似,實質不同。貿,牟牟”,等齊。易,變易。《商君書·開塞》今世之所謂義者,立民之所好,而廢其所惡;此其所謂不義者,將立民之所惡,而廢其所樂也二者名貿實易,不可不察也也。”一貿“貿”義易”。謂名稱與內容應互換。1 E& b- S* Q% F
    =>
    : B4 [4 a/ ~5 c3 n8 A$ j2 T! k謂名稱相似,實質不同。貿,通“牟”,等齊。易,變易。<LZ>《商君書·開塞》:“今世之所謂義者,立民之所好,而廢其所惡;此其所謂不義者,將立民之所惡,而廢其所樂也。二者名貿實易,不可不察也。”一說“貿”義同“易”。謂名稱與內容應互換。</LZ>
    : H, Q( ?- i  Y
    $ K4 M! x- H) ?0 ]7 X7. [儉易]2 h- g' A0 e) {, Y: A
    猶言吉凶好壞。《釋文》引<u>京房</u>注:‘險,惡也;易,善也。’”
    & S2 A: o, ?: ^5 M=>- z2 ^" v$ q' r* u3 b. t
    猶言吉凶好壞。儉,通“險”。
    2 A: [# H( L9 v$ b3 o/ d9 ]+ S5 N  P3 S/ N, m# U5 {
    8. [只要功夫深,鐵杵磨成針]   類似問題還有幾個詞條, 需與原書校對修正: [德勝頭迴] [柰園] [科頭跣足] [捕取] [被錫] [鄂不] [鎛鋁] [鞠花] [黃污]
    ! a! B- j. Y, l" T: M" f鍼,針針”。功,亦作“工”。
    5 o% N+ s$ [, v5 Z2 g=>- v9 N* a/ I3 `- L4 z
    鍼,同“針”。功,亦作“工”。
    % }# }" ?! f# n
    . k6 |3 W2 C2 ^: T9. </XH><SY></SY> 有 1650 處,  難以逐一確認修復.& y1 d$ ^  L3 a2 C

    , Q. [7 |8 i1 {( W! K2 W+ v

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-5-21 11:50:21 | 显示全部楼层
    等2020年新版吧,或許相應電子版會解決字符不全,數據缺失的問題。

    该用户从未签到

    发表于 2016-5-21 12:00:03 | 显示全部楼层
    原先的电子版有一个功能(至少2.0有),就是模糊查询,不知道有没有什么办法可以移植
    , ^, h8 l; ]. v2 K
    : s- V, w" O/ C7 f也许是我mdict/goldendict 使用不熟,没发现怎么模糊查

    该用户从未签到

     楼主| 发表于 2016-5-21 15:00:35 | 显示全部楼层
    本帖最后由 tsiank 于 2016-5-21 15:10 编辑
    1 P0 Z! n+ c" g8 W* G% Q1 F
    sky66 发表于 2016-5-21 11:13
    ; h4 T& O. J6 E, [  V0 N; `光盘版3.0數據的問題, 供大家參考:7 Z0 r2 l& h+ z) T# C# V8 V

    * b- k* R: f: j2 W& |4 o, q1. http://blog.xuite.net/fg_wang/twblog/106485207 由 WFG 提到的  ...
    1 H4 k; I( S# t. W* V
    2 D  _8 A3 G7 E2 {3 |7 C
    嘿,對照着你說的這些,我都一一改正了。那個“。。”也全是多了一個句號。在查看“。。”的過程中,看到“長公主”這一條,釋義中“後代僅爲皇帝姊妹的封號。”後又重複了“亦省作“長2主”。《漢書·外戚傳上·孝景王皇后》:“長公主嫖有女,欲與太子爲妃,栗姬妒,而景帝諸美人皆因長公主見得貴幸,栗姬日怨怒,謝長主,不許。”這個例證中”的內容“。而例證的“亦省作“長2主”。長後少了個2。另一個版本也有這樣的錯誤,真是改不勝改。這讓我倒想起了這個詞典跟英語WBD詞典的情況倒很相似。+ x5 c8 O% t  Z4 n, R

    + w1 g4 V2 i) u那一千多個<SY></SY>的情況,大多都是因爲異體字的原因造成的吧,像疏,疎;梨,棃;牀,床。真不知道爲什麼繁體版的把原紙版詞頭中的“牀”等字换成了“床”。像这样的异体替换很多,造成我添加本词典词头页码时有将近四千个没法加入页码数据。相比之下,另一版本的大词典用字倒是忠于纸质版,可是排序真是混乱,也实在是搞不懂怎么造成的。真是怪,明明是从纸版来的,却没有一个版本正常的。
    0 L# Y1 M# E6 p# U( ^$ f9 H0 V. a, d# _+ b3 `2 I' S

    ( Y% N' }/ _( m" C
    1 q" B( T: c9 i

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2016-5-21 15:13:34 | 显示全部楼层
    klwo2 发表于 2016-5-21 12:00
    . M, Q# b  e6 w! U原先的电子版有一个功能(至少2.0有),就是模糊查询,不知道有没有什么办法可以移植, @) a8 O7 }7 q- C

    5 X! A2 _$ g4 p8 s) G也许是我mdict/gol ...
      t! D/ r3 a0 K1 J
    goldendict不也可以用*,?来匹配查找吗?

    点评

    还真是,我傻了……  发表于 2016-5-21 15:27

    该用户从未签到

     楼主| 发表于 2016-5-21 15:37:44 | 显示全部楼层
    最终的排版就是这样了,也是我觉得大词典理想的样子。尽管觉得部首unicode那些信息不必要,为了跟光盘版一致,还是加进去了。字关的页码可以点击跳转到图像版,词头也加入了页码信息和拼音。由于异体字的原因,有四千多个词跟图像版不一致,所以无法把图像版的页码vlookup过来。词头的拼音是利用字头的拼音生成的,所以第一个带下标的字的拼音与原字头是一致的,其他的多音字正确性就没法保证了。不知道为什么大词典把些的suo音放第一位,导致带些的词头注音都有误了。如果mdx词典格式能够实现随时编辑的功能就好了,这样查阅过程中发现错误随时改正,即查即改,不用那么麻烦再编辑源文件重新编绎。2 j% d% L' a1 B; n+ g8 ]

    # S8 J' I! p# Y3 Y" G6 t$ y6 y
    ) i0 i9 r) Z% o  v8 Y1 `& i& @8 f, D+ w7 |7 P

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2016-5-21 15:56:05 | 显示全部楼层
    gnoweb 发表于 2016-5-21 11:50
    6 r0 n2 n# G. N6 m1 M( F3 \3 H等2020年新版吧,或許相應電子版會解決字符不全,數據缺失的問題。
    + q- b8 s% s/ r7 F
    之前不是说2015年出第一卷吗?都2016年中了,还没见影呢。2020年出齐,我看没准。

    该用户从未签到

    发表于 2016-5-21 17:44:31 | 显示全部楼层
    tsiank 发表于 2016-5-21 15:00
    4 _" j4 A9 _0 B  o. o; \  J, _嘿,對照着你說的這些,我都一一改正了。那個“。。”也全是多了一個句號。在查看“。。”的過程中,看 ...

    9 a  p$ v6 w1 |% x* `從",," 和 “。。” 錯的地方都一樣來看, 目前各文本版的來源估計都是同一個, 到後來不知怎麼各改各的, 就亂了..
    % D9 s. B/ J5 e+ N6 T/ A
    $ G5 _# _3 C& I: V* S% [7 h另一版本用字雖然忠於紙質版, 但是順序不同, 原本以為是有什麼新的見解,  重要的釋義或例證放前面..
    & L/ g5 P; q2 E0 h2 t5 P. k但是, 從"長公主"這一條來看, 例證的順序這麼排就是錯了.0 `  s: h+ M2 R  q) q) f
    因為《宋史·秦国大长公主传》的例證, 並沒有用到前面所提到的 亦省作“長主".
    6 D* w  J, ]7 @- f

    该用户从未签到

    发表于 2016-5-21 17:48:28 | 显示全部楼层
    tsiank 发表于 2016-5-21 15:561 I' ?$ a) |" K# S! b
    之前不是说2015年出第一卷吗?都2016年中了,还没见影呢。2020年出齐,我看没准。
    9 C2 M# T" M! Y9 m* D
    http://news.66wz.com/system/2016/05/20/104833730.shtml
    $ ], N8 Y% B, ~5 Y" @! J; [
    陈增杰说,他目前负责第三册上半部分,初稿663页,计110万字,明年5月交稿。
    " }; K. ]; Q$ g( T5 v

    1 B3 [0 h1 Z. J% H: n2017 5月, 第三冊上半部才交稿, 之後還要再做校對整理, 印出來可能都2018了.) \. |% M/ B+ k
    要出齊, 可能還真的要很久. 現在的版本繼續將就著用吧..

    该用户从未签到

     楼主| 发表于 2016-5-21 17:53:52 | 显示全部楼层
    sky66 发表于 2016-5-21 17:44" M0 p* r! O0 g9 h7 K; x- d6 w5 d
    從",," 和 “。。” 錯的地方都一樣來看, 目前各文本版的來源估計都是同一個, 到後來不知怎麼各改各的, ...
    ( O" M. ?( o* @- O6 U
    根本就不是有什麼新的見解,好多例证近代的竟然都在唐宋之前,哪有这样放例证的。还是那句话,我是实在不明白怎么会乱成这样。

    该用户从未签到

     楼主| 发表于 2016-5-21 17:55:13 | 显示全部楼层
    sky66 发表于 2016-5-21 17:482 l. }- \6 W/ x- A
    http://news.66wz.com/system/2016/05/20/104833730.shtml
    " A. q5 U4 e+ ~6 H# N( Q* b1 r% H! y
    估计至少还要10年时间,2025年能出齐就不错了。
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-23 16:58:35 | 显示全部楼层
    我从WFG大那里又得知几处错误,在此加以补充:0 u4 y  q6 V9 b( L+ f; s$ Y

    " t) X0 B( d6 K! A3 S) W! c1. [建窯] 宋代著名瓷窯。窯,(1)窯址原在 => 宋代著名瓷窯。窯,同「窑」。(1)窯址原在
    5 B7 @- J' k! B' y: K2. [石經] 蔡邕用隸書寫成的「熹平石經」, => 蔡邕用隸書寫成的「熹平石經」,亦稱「一字石經」。2 B, c% n/ j8 S  ?. C
    3. [赤城] 在浙江省 天台縣北 => (1)在浙江省 天台縣北, ~- A- w/ S! n1 O: k( h' x
    4. [九辯] 大义项 (2) 未断开,排版错乱( V1 `2 Y8 G  s& ]
    5. [十三家] 大义项 (2)(3)(4) 未断开,排版错乱
    3 m& w' ?+ r# h0 K* }6. [十八變] 大义项 (2) 未断开,排版错乱. {1 u5 i. m" P; D) d/ l1 }
    7. 一千六百余处,缺文、释证重复错置,例如:[一床][一線][一鉤][二疏][上果][二豎][三犁]....... Z& Q  M' B* H1 I. c
    另六十余处 "..."("."的数量不定) 为对纸本有删节之处
    ; |2 n8 H1 }1 O4 u6 f  Q0 y2 d% N/ K4 R+ t* ]
    基于以上 3 - 6 项,若对小义项有做批次断行处理的大大,可能已造成"误杀忠良"的错排,请特别注意。
    3 \6 v4 N: ^' S# w1 O* g. D/ r0 Z2 `2 J
    其实这光盘资料的错误,真是改不胜改,当初编辑者硬删资料以套入BIG5的编码之中,就已种下"祸根",再加上某些简体转繁体造成的错误,先天早已是不良。各位大致整理成自己喜欢的排版后,足堪使用就好,批次处理愈细、愈多,引起新问题的可能性恐怕就愈高。
    5 @1 V# a3 u1 b3 N

    该用户从未签到

     楼主| 发表于 2016-5-25 01:13:45 | 显示全部楼层
    coolsummer 发表于 2016-5-23 16:58
    4 m1 q& |5 m2 |* n我从WFG大那里又得知几处错误,在此加以补充:
    7 A" l' ~& r$ f+ z# `+ W; K. p7 m+ o& m7 V
    1. [建窯] 宋代著名瓷窯。窯,(1)窯址原在 => 宋代著名瓷 ...
    ( J# m0 P# q# N1 T
    前兩天下載了漢語大詞典光盤版2.0忙活了幾天,提取了數據。2.0收有字頭27898個(去除重複後有20902個,也即收錄了全部GBK編碼範圍內的字,比3.0多收了六千多字,即使去除收錄的簡體字頭,也多了三四千字頭),詞條343307条。無論是收字還是收詞,都比3.0的要多。有“煊,堃,脉“等字。不過有些字頭詞條不見於紙版。2.0因爲是GBK系統的,比3.0少了很多因適應big5碼而刪除有關內容造成的錯誤,所以基本上沒有那一千六百多處的釋義錯漏,例證誤置。除了是簡體釋義以外,文本質量比3.0要高,說3.0是2.0的閹割版也不爲過。只是2.0的排版很糟糕,大釋義與例證都沒有分開。
    % v4 F) B6 D" W& N9 i) y3 g5 z0 X# g
    7 N5 q# H/ A/ w0 Q1 R6 x  w4 j' W) O( Y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2016-5-25 09:41:40 | 显示全部楼层
    sky66 发表于 2016-5-21 17:48
    7 s# @; @5 x7 hhttp://news.66wz.com/system/2016/05/20/104833730.shtml

    ; y1 E, D7 n4 m. K/ B9 O( U3.0對紙版上的釋義多有改動,今查“五奴”條,釋義中“但多與我錢,雖喫&#19284;子亦醉,不煩酒也。”此句引用的話2.0把“雖喫&#19284;子亦醉”用......代替了(自己已改正),而3.0把這句話直接翻譯成了白話,亂序版的倒是忠實於原文。應該是因爲“&#19284;”這個字gbk和big5碼都沒有收錄,所以做了不同的處理。不過3.0對2.0也補充了一些內容,比如還是“長公主”這條,3.0比2.0多了“亦省作“長主”,可惜又沒處理好。
    ' b: @% |8 W- q, {& |! l+ A- m  s/ s4 p. E

    7 ?' S  Z" Q' c, W$ l4 B- {6 R& |2 B& }6 S  V

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-25 10:49:19 | 显示全部楼层
    tsiank 发表于 2016-5-25 01:13
    + r0 x% I2 v- H9 K3 g前兩天下載了漢語大詞典光盤版2.0忙活了幾天,提取了數據。2.0收有字頭27898個(去除重複後有20902個,也 ...

    ; Z, f4 G$ @; f; W9 H看来汉语大词典光盘版2.0的数据还是有其价值,感谢tsiank大的分析,我也来试着提取看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-10 02:37 , Processed in 0.054305 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表