掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 920|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑 7 E! b8 p" M6 s5 i/ u4 T4 q
    - k; [5 C( _. z- _0 s
    小弟不才深感各位同好製作辭典之辛勞
    % z5 H# p" c5 U只因幾個抽樣概念欲與同好們分享
    ; K) }9 b( d! J! t/ s若用抽樣的 Defect Rate 來看匹配密合度也能有所答案2 Q% U: h$ B  _' k
    假設如下:
    6 R0 {8 M6 r5 y3 i& o詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)
    / A% k8 ^) b3 d, j& p而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為6 j$ _" V  v4 ]* Y4 n) E
    a = 2000 ,2500 , 2800, 2900
    8 o1 [5 Q  }' `  p* I. T, A- Z& c+ Z& k' P, o
    AQL=acceptance quality level
    : }5 ?% w1 R( B- T8 o. ~3 T; uLTPD=lot tolerance percent defective
    % @& G8 e+ A. RAOQL=aver outgoing quality limit- A! s* Z% T9 `" W( d
    OC=operating characteristic curve
    - E9 L' G3 G/ [3 {" i. K; t; cAOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss
    0 ^" \: h8 j" z- c6 T0 _也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的) u: C# K& {+ P7 ^  e& s8 K
    . X7 i" I, M4 a, p" E) D; W
    倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓 - S7 ^0 N- k2 D* o3 Z0 [+ Z9 i

    ' H+ @( d% @8 A) B2 T% O若把 AQL 當成 匹配率
    4 I: k4 Y" Y$ @a = 2000 , 65.3%. |0 [" \9 b: Z0 ^
    a = 2500 , 82.2%$ u. E7 ?& K0 E9 Y
    a = 2800 , 92.6%/ |1 C8 D2 X& v# I5 P* ]
    a = 2900 , 96.1%
    , ]; z5 k! Z3 M: |5 o% c( P+ N0 V$ N$ t2 ]) Q+ u
    誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德" m& Z6 }2 g$ {0 T) L0 p7 j- q& s8 H
    此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據
    8 l( h1 H0 S7 w- y
    / T& M* b4 Q$ W" v9 `
    9 A/ X$ q; o0 K/ M% N9 a" s0 _3 e4 ~% o4 h. V& s
    # P* v+ q2 X6 i7 }; A$ o

    ; V7 f- x( F4 R3 u! P. L+ o0 bPS.
    ' l" e% P! a" B: l' M所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已  [; N4 V% t: s. m- o2 E" q/ U
    純.......參考- T; M: I, ]+ }+ u: G8 r9 }
    并不需要真的去計算# _+ ~8 ^/ K: y; N  _! ^
    而是了解此現象) ~% V/ |3 h0 B, Z2 ~4 R
    把定量分析的性質
    # m% J4 @$ A$ D6 [, L) {9 ?' P轉化作為定性之選擇字表的依據的應用
    7 W. i. r) j, x
    0 [/ c) l3 n/ q' U2 z0 T& @" D6 O* C; \6 Q
    - T6 i: `8 s1 ]. w1 v4 N. `2 y, Q

    , S: R8 V( V" X( Z+ ]) E. {
    6 z8 z% i$ O$ |5 b0 m9 y9 _/ o
    , W9 ]/ \, O% _5 v4 l8 f) \4 F4 }( W5 U, p

    3 N0 Q6 o& M1 ?& U/ G# T+ d! o, K+ T4 `8 N

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑 % e$ g0 {# |2 L: w# r+ c) v
    oversky 发表于 2019-6-2 18:20
    0 }* e' K' ?# a: I如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    6 f  y; d" f7 i1 V7 K$ G
    ! n- Y; {0 @- p% j6 p% A
    oversky 兄:
    & \5 d1 u% _. r* v" A* i3 w1 b外研社新英漢詞典匹配度大概如下:
    4 e2 M7 n" c" e7 q; c+ W, u共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795) f3 `! d3 w7 t7 D
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374# T( K+ T$ H% _& c
    但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172& H5 [4 l6 e. |! a) Q
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度0 J9 ?4 F* z0 M: a7 I0 h( x
    經過算後匹配度 = 63.445 %
      e3 _( v8 I. o" }& L1 d1 p由此可知選用的字表並不佳.......
    4 j5 N* L7 E' d2 ^  A! m( h% |* Y8 o

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑 $ G' s6 m6 ]! W* N* d" a) k
    oversky 发表于 2019-6-2 18:20
    2 F9 {& S5 e( H9 n4 C$ ~9 w如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    ' K' I8 B6 C0 k9 t

    / R" }; ]9 V- F8 a% ?oversky 兄:# J- ?) D. r" t, [6 Y4 @4 O+ o% j
    另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典
    ! G$ I: h% Y1 Z, X
    ' `* c! b% L1 P7 q. c/ F朗文當代大辭典詞典匹配度大概如下:
    ; ?7 N2 ^! A& M; ?/ S辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 20399 q) B4 _4 H! G1 M% V0 u
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190) \1 @" S: |6 C" |
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995
    ' d  s  V, b- o3 h3 o) M9 ]# _但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    2 J# r- I2 g; A$ q* \3 i經過算後匹配度 = 97.289 %  H5 C4 {% {0 ~, H5 T
    由此得知應該算是不錯的選項
    , D  h8 _$ M+ ^& ?$ w( l" `
    9 j( c0 O, U. Q, V: D% Z# v( a1 _% D+ z
    . c/ H' P" |( l

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑
    ' ~5 ^: w9 d0 a! b0 K5 y
    dailiangzhen 发表于 2019-6-2 17:29
    6 M9 t6 ^3 T+ y$ t3 I+ b' C看不懂呀!!不过看上去,挺高大上的

    $ G' E0 Y& o5 u) }/ D; B- r& m* ?# t" Z- q4 |
    dailiangzhen 兄:
    ( x  }2 P( S8 h& r沒有
    高大上
    8 `8 v/ g" z9 q* v6 v- z
    9 o9 p! }- Z( }2 _6 r! R5 x$ f
    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑
    6 K: S- \$ x# p3 B
    oversky 发表于 2019-6-2 18:20
    0 H4 C' ~9 w2 [% `" u如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    ( t/ t" G% }9 z8 e+ U* L' Q, p1 w$ e

    ! K' g# T/ h, a' eoversky 兄:
    : s8 c% i4 W3 y8 K( C; v
    误差在前后一页

    8 v1 D& `0 b; ~+ N; v0 e這個不太一樣) \3 b5 @8 Y. P( v; @
    您所在乎的問題是屬處理英文單字排序的問題
    " P( J+ q6 J; k& S5 c; L9 r英文單字排序處理好了 vlookup 不會有錯頁的問題
    : E6 w5 a7 P5 P, w. ~4 W+ h2 a小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況. l7 H2 {- M3 u6 T% A$ I  U
    - v' V+ ~1 d* F* J
      d2 f8 g- L! n: R$ V
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20
    + v6 v/ }+ C" l! ^* }- g- \如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    % ]; T! f5 o& g/ `. s% G% woversky 兄:$ p, S( g& G4 _7 W4 P' C; h
    小弟過兩天再以外研社新英漢詞典 那本為例子$ ^% J  V; [2 M0 p& f! d4 E
    計算一下其匹配率解釋說明您應該就大概會了解了
    . F! R6 z/ U. O; N  z
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49
    . b# u0 Y! O, N3 }! rdailiangzhen 兄:7 N. b- e+ a/ x6 X
    沒有   b0 s/ k/ Q. E) }8 I. f0 T4 T
    0 P4 n8 z0 Y) t6 H
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑 ; {( A  n2 F) J
    dailiangzhen 发表于 2019-6-2 19:347 j4 K, {( e, x& O7 A2 O" v
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)

    . ?8 N% `5 S8 G$ S2 {* o
    # n: \2 H$ W  f5 B* cdailiangzhen :
    ( V& ?+ N1 [3 ]; j. ^$ I. e: f4 x. ~仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    & z& `! r/ M0 x( m1 H; }若有硬純屬 placebo effect6 v8 R  P. ^+ \3 q5 h
    哈! 哈! 哈!哈! 哈!
    - F" c9 U/ I6 @6 K. k0 s% L' z3 {7 F+ m

    ) s  W1 S' N: f/ e& o
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑 3 Q/ a. ~% p' g& O$ C) e
    thresh 发表于 2019-6-5 21:363 d7 t5 ?/ F; K+ c  k7 K& K
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...

    ' p% O+ y0 F+ H3 ]. I2 m5 _+ [7 w1 G2 {: p, A0 t; }$ l3 V+ I) @4 F
    thresh 兄:
    0 s7 X" {" E3 W6 h5 p6 f9 c小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表
    : @, @7 \' \/ j" ~2 I" M& x1 i2 [# z1 g+ E( D- f( x% X
    $ W) B) x$ B% p! e
    此是用& S: V8 M3 }+ J3 e' R1 \# J
    1. 每一頁的第一個單字集合而成的單字列表 or
    9 u( [; t8 O9 U* a5 _2. 每一頁的最後一個單字集合而成的單字列表 or  P6 q* N: \- s  P+ ~
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數$ C& a2 H$ ?( f2 e. c+ Y
    5 j* k) S  c: V5 _5 l8 d. H# f
    1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確* o6 R- A. i1 G- q1 q
    5 R( f9 e1 P' U! q$ o1 O

    + ]) v9 ^' {8 W1 m1 |; H
    % P1 G0 n! G( E- x- s" p然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量% J: `. H' `( `0 |+ x: `$ o
    有對到的當成是 合格樣品
    , e' L. N3 P* [6 \沒對到的當成是 有瑕疵樣品
    5 X/ U8 \! f7 O% c5 P7 }9 R4 D" H) x& Q; w. J# q$ B
    此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
    3 @- i. R( O- b" p) `2 b3 Z; h此可由小弟所假設的例子得知
    & }+ z9 k- H. h; r) @
    3 j2 F) c; P- E此是以計數值的(single plan sampling) 為基準
    % R7 s- o% C) a! {+ S) o. v! d8 c6 r" |: R3 ^  H& ~
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    1 R: A( t1 q. `/ z- U; E( O純.......參考
    2 L) i, Y6 T* y6 R. Q" ?! U并不需要真的去計算7 n4 O6 ], A4 |- a) ^% v8 g) w) d7 I( [
    而是了解此現象! \7 r3 q4 M' K; [; m3 Y
    把定量分析的性質( X3 R* ]# u. Z. D% ~( c
    轉化作為定性之選擇字表的依據的應用
    + p5 D0 A4 C, x
    ' @8 B, y" C+ Z1 j7 Q! i
    - P; v1 L. e5 p9 G( ~/ j: @( @( ^" c9 t

    , T7 d! \" c( t) a) L- v4 I& N: p9 H
    8 X* a  o* e, y( O$ Q
    & |5 {2 ?5 _# q
    : g  d2 ~3 C2 t+ p; O* `6 o
    " U3 M) w6 c" y1 N3 ]# J1 w8 l/ N
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30# l, o6 V  a/ f# D
    thresh 兄:/ H3 |- K' u! D8 M+ q) `# H) u
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

    ! G2 v0 V* [6 h; A; W/ Z, a额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    ; y' Q* o/ O  F; E
    7 _8 ~, b7 a; f另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?9 N! L. I  \* x0 J$ U  ]

    . m: W0 t: ~3 G$ _/ Q如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03# @( q' j# |/ w! |/ y6 ]
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    ! ^7 \3 ?) y* c
    老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑 2 L& E% i7 q/ F- D
    thresh 发表于 2019-6-7 00:03' f, E; R2 A  r; M
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    ( ?- @* B5 C2 A2 }  T- o
    * v: a! U! x: U% g" P/ Vthresh 兄:' D' C( D* I3 @1 K+ |5 [  V7 ?
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    & N. }: L% \  V  |( `* K9 D0 K1 H1 r
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值
    ) Z! j/ a9 _3 j( X' A; a3 l) U  
    2 m/ t2 o' x% G; x/ R# A
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    + x# p4 r$ _: R- `2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 2 @: u3 h3 T: O! b8 ]  b- U

    2 ]$ F, {- y% c3 e! g9 X: h若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的1 ?5 x! J4 K9 T
    計數值抽樣檢驗方案及程序, 應也有各種公式的陳列4 F" N( x$ a/ F9 m) ]
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41
    5 u4 h, g7 _! ^2 j7 {thresh 兄:1 h; z# o+ d0 h
    2 f6 {* s2 J2 M) F3 Y$ _
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...

    # d2 y% U/ _2 Y7 Y, T% _) o( ^好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-17 02:17 , Processed in 0.069135 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表