掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1705|回复: 4

[讨论] 辭典詞彙量估算匹配

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-3-21 13:07:14 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-3-21 21:08 编辑
    # y! _; @! w  R* ~# q
    : p2 n& s* j5 V" i辭典詞彙量估算匹配# `5 j; S' F/ i7 _1 a! s
    在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
    + w) i4 t! Q0 |. r9 s) E延伸此點交代不清之處
    2 y- ^, g/ z3 [# W4 v- o5 zhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=; P' `1 `( D% J2 f) o5 |
    1. 要先預估其要製作的辭典的辭彙量, & }5 h9 m. {* }3 H" V4 M* u1 p
       若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
    - k" Q7 D4 u# ?9 H5 L   可能辭典序言上標示的辭彙量也不一定正確: y0 V* ~7 ?0 F6 k0 S
       此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
    ) {; B* V: |6 W' g4 c/ J   算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量
    6 X) o5 }7 ^7 i! e   保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧
    0 @; r' d- B, t6 S  p. ]9 z   因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
    % z5 \0 G4 _  A; C9 ~; G   問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找8 V5 g) H" A$ }# w

    1 P; ]2 i: v6 A8 z$ a5 G! ^P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版) 4 _% V0 `& a& c7 ~# o/ u2 Z! s7 h
    效果真的不佳8 u2 M( m# X8 a" p- W
    此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁
    ! k/ K/ o& D; i  b. _( E也就是說只要配到 26萬多就基本含蓋了
    ( f0 S. Y4 w6 i7 P5 T0 s1 h不需用到 47 萬多的wordlist 來配 / y8 s+ N! t! w7 M( f
    其實用平均值6萬6 以上配, 應該是效果已不錯了
    1 n8 X+ a3 V& }6 b: t' I僅供參考8 Y$ |; Q+ c- p6 @5 y+ a- F0 _' p1 q
    每頁匹配多少詞條可用 countif 來算. j, Y4 X) x1 F& _
    比較一下每頁的詞條數和匹配的詞條數
    0 h& Q: x) q, q" M1 d若是各依其數具計算出來的平均值和標準異差都很接近( w5 C3 K& M& R
    那表示你應該匹配的還可以吧
    3 c3 B2 |* O7 I4 U5 b
    % P* n; D4 t, {/ ~. s. O) o' P辭典詞彙量估算匹配_4............應該是比較合理的預估模型
    # D, D! _. T- r# O4 d(書頁詞條數-匹配數)<= 沒配到的詞條數
    - b( k; b+ o) f% q/ F" i2 y# G( Y沒配到的詞條數算出平均值標準異差.......各乘上頁數
    + s7 |: z% f" {, N( s; x# d  F2 I7240 , 3726: E8 ^$ j3 \. r7 D, R
    也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數
    / H: [- Q+ J+ A所以用 66595+7240=73834.......大概都能配到的平均值
    0 L" t1 i) R' e4 ~5 w若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
    0 i* u; r% ~( m1 ]3 C所以 min=73834  max=85013
    $ e( k6 c+ t) G  K" e2 x* s! a! p, p# n0 Q* D

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 18:08:53 | 显示全部楼层
    本帖最后由 oversky 于 2019-3-21 18:25 编辑 # Q( L0 r  n$ V0 S, Y* h, D
    2 d3 ?$ l4 e3 w. r7 ~
    第一个想法+ H! L# R, S  P3 g  a7 @. L  q% h9 y
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。
      i# ?  V8 e5 a/ \# z. p" c4 m3 K
    第二个想法7 x& _: P# I/ ?! O" ?: N; g; J
    用字频资料库来估比例。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 18:42:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 19:06 编辑 6 A& Z+ E+ @4 C0 a2 C
    oversky 发表于 2019-3-21 18:08
    ; a; K/ R% n$ @* _可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。 ...
    2 v, x6 [# I' x2 s7 ~  g

    , X+ e$ t3 X' v4 Z3 boversky 兄:
    5 K/ E2 g) x/ K9 K( o+ F8 E如此就不是隨機數了
    4 x0 Z/ c# u/ S  v其實是不需如此, 因標準異差值本來就是設計來估誤差值的. H, R2 F8 @# ^, h. p. b' |' {2 M: k( B
    當您用到6萬6去匹配基本上50%的單詞都絕對配到( M: K3 ^7 M! Z& x2 Z) V& Y! i
    加一個標準異差的量13萬2就68%以上都絕對配到. O! B4 a, ^! D* q
    加兩個標準異差的量19萬9就95%以上都絕對配到& D0 V$ F' ]; m! v9 @
    加三個標準異差的量26萬5就99.7%以上都絕對配到5 k6 u- f3 u! F3 V# |0 p6 N; S9 s
    而且這是雙邊機率值8 ^5 P, V; c5 g6 h5 ?2 F; t
    若單邊其實機率值更高
    - y3 i9 T& \, o/ X. ?真的也不太需要用到加三個標準異差的量26萬5去匹配
    5 u  o9 ^/ z/ M6 d0 Q2 M, L
    , y: i1 @# h" b: {7 d% T& V倒是可以考慮把幾本的 wordlist 作張表把頻數填上
    0 t! T) ?4 C: [% N% ?& g$ a7 A用 Bootstrap 的方法把頻數考慮上隨機抽取你算出的數量的 wordlist 去匹配
    ' E  x  j; Z  ?. x4 ]( j) T重要的單字不漏也不至於多配太多和漏配太多/ W6 j9 |1 F" |3 _* l# v$ Z( ?2 ~+ y7 _9 m
    可能命中率更能提高些
    & v& @  k( i! [. n2 z8 I也就是集中數個wordlist 於一張 wordlist 然後每次都從此 wordlist 隨機抽取你要的數量來匹配5 v  U5 E1 D' E/ z) T) x6 R

    ! u- w6 G- U2 b
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 20:33:00 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 21:23 编辑 : ~8 ]& `$ V! d+ X. z! r
    oversky 发表于 2019-3-21 18:08
    0 Y1 F" k7 c% p4 k! p第一个想法
    4 x. U% _; s: n: k) P5 z: P可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。

    % F' @; U1 G1 F2 X3 Y" F% ^+ v, o4 J' @* f% E( b8 k+ h0 s
    oversky 兄:2 }' l  ?& P6 B1 q1 V; \" J
    剛又想了一下檔案和圖都改了好以次
    ; o) i) H' T/ \" y' `2 |! G* y後來的預估模型應該是比較合理
    / ~+ {+ V2 `/ L9 W1 a因若以每頁的標異差來估% `6 s2 j2 j$ o5 O
    數量一定會膨脹太大/ h' K7 T- p6 @
    但若以沒配到的平均值和標異差來估, T- l# D+ H: W+ ^
    且加上則數值來看應該是比較合理7 Z% E  s) X' U8 C8 K
    & w$ l! H) e) l- Z, l* n

    ; H! H/ [8 \# D4 u) L
    ( d. i$ Q/ w. t+ L
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 21:20:39 | 显示全部楼层
    喬治兄 发表于 2019-3-21 20:339 i( @- x5 X% w+ y+ B7 r& c$ t
    oversky 兄:
    6 f) v1 r  X3 y  K% |2 x, L剛又想了一下檔案和圖都改了好以次
    3 t* l+ K- _7 V: M: Q2 ]後來的預估模型應該是比較合理

    . }& @4 }6 o( N, }好久没碰机率,我再来研究看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-28 05:12 , Processed in 0.022200 second(s), 25 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表