掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1693|回复: 4

[讨论] 辭典詞彙量估算匹配

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-3-21 13:07:14 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 - E4 m. @4 a( t0 J& c& a
    5 {, O, s% [+ }2 @
    辭典詞彙量估算匹配- N0 W/ j& K  G" i, u) k% M
    在此提供試算表 您可自行預估拿捏 wordlist 詞條數量# }- H9 N3 a6 y# _8 a
    延伸此點交代不清之處
    + a( Y: m0 P- w+ h4 Chttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=% Z0 q! i+ B8 x8 `% k
    1. 要先預估其要製作的辭典的辭彙量,
      C+ {- T2 G$ q3 k+ B8 b   若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量6 W  S/ r* m1 R* w" D
       可能辭典序言上標示的辭彙量也不一定正確
    - F+ Q; K$ |* y   此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
    # o. n' n% n/ O3 o/ [+ U" y8 j   算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量
    3 P2 o9 H* ^, @4 T6 D   保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧( I* Z' h  T! \5 w; M
       因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
    3 v( s0 i, s& D6 X! x   問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找
    : ]0 r3 X9 E% R0 K/ ?; S3 |+ C( i- u
    P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
    / _0 \  x, b  s% }" q5 E% F效果真的不佳& M4 A5 n2 a! B4 Q6 [% ~4 x3 x
    此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁3 R1 E; r0 A0 \
    也就是說只要配到 26萬多就基本含蓋了0 z: _  j  o* W9 ?' M
    不需用到 47 萬多的wordlist 來配
      K4 |: C1 z  V5 x/ k. g9 ?其實用平均值6萬6 以上配, 應該是效果已不錯了
    ( Y7 u6 d: t0 c7 `僅供參考
    ) A) ]  T( h' X2 o4 P9 ^5 b每頁匹配多少詞條可用 countif 來算; F9 y! @4 w' A/ }: `( x
    比較一下每頁的詞條數和匹配的詞條數
    7 o- ?7 @0 d) I  Q3 e若是各依其數具計算出來的平均值和標準異差都很接近6 E7 x: o+ Z$ {1 N
    那表示你應該匹配的還可以吧$ h" Q* T# n* c& g9 P" E6 W
      @; ]4 V& D. u) W% E* R
    辭典詞彙量估算匹配_4............應該是比較合理的預估模型
    1 R- Q! N: P1 q(書頁詞條數-匹配數)<= 沒配到的詞條數8 l$ z* ]' ?+ E  q5 ~! x& F/ r
    沒配到的詞條數算出平均值標準異差.......各乘上頁數  h* `: q: z# A+ u
    7240 , 37263 \: T; W& r0 a% ~7 f
    也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數9 I; J' O, Q: ^1 c: E# i* ]
    所以用 66595+7240=73834.......大概都能配到的平均值
    , b2 h4 A+ M& a6 i, E若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
      }, Z9 K8 r: c所以 min=73834  max=85013! T- r& E+ j) ?" i# {

    & y3 b1 Z1 G6 b1 c( a' E

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 18:08:53 | 显示全部楼层
    本帖最后由 oversky 于 2019-3-21 18:25 编辑   ~: ^5 r, P/ k8 b! u' w% R
    8 g, b& [# U" f
    第一个想法
    / R5 {  K) i7 l: N' K! k$ c可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。
    * l+ P* f% \' y5 A  ~7 l
    / F! ^* S  `( L' x5 ?第二个想法! r) t' E# s5 `6 w
    用字频资料库来估比例。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 18:42:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 19:06 编辑 8 e- [; o. u  a8 L+ T
    oversky 发表于 2019-3-21 18:08
    % f2 j6 h# U  t: @. i# s; D可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。 ...

    ; p: P9 e8 _9 k& w7 V  D
    # p- Q! Q3 r0 e7 ]4 B9 t2 }0 Qoversky 兄:0 i( k- m5 ]3 O6 Q
    如此就不是隨機數了
    3 U1 X" d" S% }/ H其實是不需如此, 因標準異差值本來就是設計來估誤差值的
    / ?& Q4 J4 Z9 K9 N; c; u; a當您用到6萬6去匹配基本上50%的單詞都絕對配到# C: Y/ F$ }$ |2 J, ?- u
    加一個標準異差的量13萬2就68%以上都絕對配到& j: o6 I; e+ G. Z/ J: R
    加兩個標準異差的量19萬9就95%以上都絕對配到+ B. k) C- ~4 x* S% X8 e! X
    加三個標準異差的量26萬5就99.7%以上都絕對配到
    ' P! Z! A  B; @9 ~而且這是雙邊機率值
    6 l9 `) |" E1 Q- L1 `, b. J* t" x若單邊其實機率值更高
    % s( K* H  o! }真的也不太需要用到加三個標準異差的量26萬5去匹配5 g$ [/ h. V9 [- t9 f+ S1 ]" x8 Y
    5 D- A, t' T+ v4 C. Y' O
    倒是可以考慮把幾本的 wordlist 作張表把頻數填上
    $ o, ~6 C1 u8 R) D& k* {" f用 Bootstrap 的方法把頻數考慮上隨機抽取你算出的數量的 wordlist 去匹配" w0 [+ v5 ?5 @% T7 M% ~0 r* {2 G
    重要的單字不漏也不至於多配太多和漏配太多
    ' g/ ^$ o7 [, A% i2 J可能命中率更能提高些
    9 S! ~) s! q! V2 \也就是集中數個wordlist 於一張 wordlist 然後每次都從此 wordlist 隨機抽取你要的數量來匹配
    $ \$ A5 ?/ u( R1 R+ ]" S& E7 B$ w3 N. t+ B& }" X$ q5 P0 d
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 20:33:00 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 21:23 编辑 / T2 c. m, o  X$ X% h' ]/ J  E  l
    oversky 发表于 2019-3-21 18:08* @5 x* n) u  c2 N- _
    第一个想法% ]* `/ M1 {" V
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。

    7 N$ j; N$ B: S; g/ A- M7 q. X; f- ]4 @* d  l
    oversky 兄:/ c; M2 b3 G0 e: [& [
    剛又想了一下檔案和圖都改了好以次9 n+ w( X4 r) j* u7 G) ]% i
    後來的預估模型應該是比較合理
    ( U! K4 Q- v8 f7 H! p1 F( Q7 _因若以每頁的標異差來估- x* x8 U, }' {. q* m$ S* v
    數量一定會膨脹太大
    3 m7 d% W  K! Y4 u1 b: y但若以沒配到的平均值和標異差來估
    ' @1 Q0 O) ^# ]+ N8 q, }且加上則數值來看應該是比較合理
      q! n+ X  k2 ~3 V! T$ y; w  t7 @$ T8 k* S+ z: ]

    - R5 j0 B8 z. |( N  ]8 S, N7 F" {6 ^' ?$ c/ V8 y( m
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 21:20:39 | 显示全部楼层
    喬治兄 发表于 2019-3-21 20:33
    ; @0 G1 W  T% h6 A  z7 |& Hoversky 兄:
    4 ]$ {% E$ P' v& ~1 s$ s  ]剛又想了一下檔案和圖都改了好以次
    ' o! d; r# t8 `/ ?& \+ I( d% x' k9 f後來的預估模型應該是比較合理
    # N# J% M) i9 \8 m
    好久没碰机率,我再来研究看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-3 16:09 , Processed in 0.020664 second(s), 25 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表