掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1704|回复: 4

[讨论] 辭典詞彙量估算匹配

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-3-21 13:07:14 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 9 s# ]1 C  o- F8 Y
    6 T$ U! y5 \8 Q( v
    辭典詞彙量估算匹配& V* [2 o% W. k$ o# i/ K
    在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
    6 j$ J) o4 D; i/ S, ~2 t% _延伸此點交代不清之處) o, G8 W; z6 F) e$ ^
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
    + y: y3 t- m) v. |1. 要先預估其要製作的辭典的辭彙量, ; j3 K& s& q' @0 V1 }1 h9 ~
       若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
    ' T9 C  _6 d& d, J   可能辭典序言上標示的辭彙量也不一定正確
    * Y9 G$ H: m; b8 A; W4 i' E   此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數, ?0 R% O% X& _% n: V$ S" a
       算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量* R9 ^- G8 \( _
       保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧8 |/ o, P; ^+ d3 \# m& r+ Z* R; x) |
       因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
    , k/ O. P6 M. Q( r   問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找% q/ N" m" B& x0 P7 W( ~. l

    9 S+ I  J6 Z: y9 PP.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
    . G+ I9 X. D( p  l. G% H) R效果真的不佳
    ; y$ M# s! r$ S* b4 H; c此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁
    9 o: x! _) g1 _8 S7 R也就是說只要配到 26萬多就基本含蓋了
    1 e. a. K: _; B4 z0 G! u2 ~/ i不需用到 47 萬多的wordlist 來配 % O) y6 \% P5 W) F& Q
    其實用平均值6萬6 以上配, 應該是效果已不錯了
    1 \6 j2 S7 h( {8 Q4 [僅供參考
    8 e  a2 b; I) V# x2 M$ s9 x) G% Z每頁匹配多少詞條可用 countif 來算% B) S7 B# f0 `. D
    比較一下每頁的詞條數和匹配的詞條數4 B6 c1 o0 @1 y! a& ]& V! S" M
    若是各依其數具計算出來的平均值和標準異差都很接近
    $ W# a" j4 K8 |  |/ {+ `, f& Z1 T那表示你應該匹配的還可以吧
    4 v4 v( N% D+ T$ C4 z4 L/ w5 d) A( t2 C) P: Q6 _0 G1 h: h) F
    辭典詞彙量估算匹配_4............應該是比較合理的預估模型; r6 B7 x* `' E7 J3 Y
    (書頁詞條數-匹配數)<= 沒配到的詞條數/ R: m$ X( A# w4 V- q8 N4 W
    沒配到的詞條數算出平均值標準異差.......各乘上頁數: g& N6 h' o2 j- W9 Q
    7240 , 3726
    : }, q2 `/ M/ C( W( n: H也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數3 J3 d8 f; Z6 @, M2 O
    所以用 66595+7240=73834.......大概都能配到的平均值
    $ K  R3 a9 `/ q若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
    : G$ [7 N4 u$ v) |. Q所以 min=73834  max=85013
    4 `% m$ r: ~  `' y7 z& o9 [  M/ Y# _/ }( ~; Q3 }" k$ P3 W

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 18:08:53 | 显示全部楼层
    本帖最后由 oversky 于 2019-3-21 18:25 编辑
    ( H7 b/ A! Z9 B% D( \+ w& j5 P
    6 t  w9 ]+ ]) y( u2 A: H# c第一个想法* r: t+ n! V! o. W) b; @
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。
    $ u( a4 z) U1 k& x* I3 l) Q
    + i& l' a# f+ H( g' S6 H第二个想法
    5 C8 a  C) F! Q% g! s  s4 r5 J用字频资料库来估比例。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 18:42:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 19:06 编辑 $ V2 a* W* C. p/ P9 G
    oversky 发表于 2019-3-21 18:08
    . N( d! u9 k) A0 ~: |2 k  M4 D可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。 ...
    ! A* {3 d, ^0 m# |6 d; y3 V- H

    . r  z  `: X3 z/ s" eoversky 兄:- w2 c1 g$ b3 q4 I( I+ [$ C
    如此就不是隨機數了
    5 f9 B& N! d8 z+ s" n其實是不需如此, 因標準異差值本來就是設計來估誤差值的
    8 A0 z1 Q, D$ j* O4 S7 @# U當您用到6萬6去匹配基本上50%的單詞都絕對配到
    + E( l- ]4 Y9 @% e- m( F加一個標準異差的量13萬2就68%以上都絕對配到
    * E8 S1 n! x( u8 s, a) ~* M# t加兩個標準異差的量19萬9就95%以上都絕對配到
    , Q7 Q# q7 r" x" Q% f, i9 p  X加三個標準異差的量26萬5就99.7%以上都絕對配到( y6 y% f) G  X0 w! c- M2 W
    而且這是雙邊機率值0 b! S) ]5 [7 E% l' ~& Y% `. x
    若單邊其實機率值更高7 O8 Q) u* X0 ~
    真的也不太需要用到加三個標準異差的量26萬5去匹配! a0 h5 ?, a: T- T9 o
    . \: s" S, z5 N  @: H# D
    倒是可以考慮把幾本的 wordlist 作張表把頻數填上  c8 X, E% o) ?
    用 Bootstrap 的方法把頻數考慮上隨機抽取你算出的數量的 wordlist 去匹配6 u1 S  U5 j4 ^9 S" Y
    重要的單字不漏也不至於多配太多和漏配太多
    ( F! \& m" n6 j5 _* x) d: p% @: T可能命中率更能提高些
    # i2 E, A' w% L3 g* o& k# w也就是集中數個wordlist 於一張 wordlist 然後每次都從此 wordlist 隨機抽取你要的數量來匹配( T  p6 h% c, g/ U

      C/ U: a* n5 R  x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 20:33:00 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 21:23 编辑
    + ?/ J' }3 t# r
    oversky 发表于 2019-3-21 18:084 R4 _* M* b% {
    第一个想法
    5 d2 a& n4 c* X5 b! q9 z可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。
    - F/ a' k* B$ x/ a# I) p4 w

    8 L; f2 S: M# G  N6 Doversky 兄:
    . o8 Y0 G! f* _* N  V剛又想了一下檔案和圖都改了好以次7 ~; t' N1 g; Z# |: v0 @
    後來的預估模型應該是比較合理4 Z4 t& C2 ~# ]- W
    因若以每頁的標異差來估" {) l) j% j( A/ w2 V( H, ]! @
    數量一定會膨脹太大
    4 _) H9 ^) M1 ]. U# ^* ~; y! l+ \但若以沒配到的平均值和標異差來估
    ' V9 T, Q8 _; T且加上則數值來看應該是比較合理* p7 t; y3 V6 P: _& _

    0 n, U2 L; [. t/ N! i$ A7 t; E8 c- f. }/ ]* B
    5 R" h: Z& R+ L+ x
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 21:20:39 | 显示全部楼层
    喬治兄 发表于 2019-3-21 20:33
    ; f' B5 H+ F5 Y1 _oversky 兄:
    2 d  M: f* t! {4 F! {5 u3 Y剛又想了一下檔案和圖都改了好以次
    6 i) _1 w  t+ h後來的預估模型應該是比較合理

    7 V1 A; _) g5 K& n- L' \好久没碰机率,我再来研究看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-27 09:18 , Processed in 0.022783 second(s), 25 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表