掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 925|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑 ! @+ {+ d5 B2 D& [' W6 V8 o1 j

    & A& n6 k  e1 Z& c$ S: k小弟不才深感各位同好製作辭典之辛勞3 k$ D$ p5 r4 ^/ a3 z
    只因幾個抽樣概念欲與同好們分享' g: n% T6 d! {9 W* E- w- s' a
    若用抽樣的 Defect Rate 來看匹配密合度也能有所答案
    ' H# Z6 n) j6 M  b2 f' D假設如下:5 l: ]& Q4 `$ Q, d: J7 u" u
    詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)
    6 s0 m. B: x% G: Y# i# U% u而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為& a( B( U- P. \6 e; a7 L" ^
    a = 2000 ,2500 , 2800, 2900
    1 Z5 K( Y1 I% g5 I7 h% t/ H" R1 n
    $ ~" F, N; K  [0 ^7 ?0 AAQL=acceptance quality level' V2 S: t2 W: j
    LTPD=lot tolerance percent defective
    1 r+ r! T" |8 p7 C# @AOQL=aver outgoing quality limit6 |1 H: v$ m& |9 q- \9 j. N/ u
    OC=operating characteristic curve4 P* a: W1 X4 x2 A) P; @
    AOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss: i6 f! X0 ?& R5 h' g
    也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的' i- A, N; E) q- P1 A  Z( t
    3 Y  y8 N. t6 h/ V
    倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓
    6 J6 p& C; Q8 o) }% X% L! Z" d
    ' Z% o7 D2 Y8 a1 m( }
    若把 AQL 當成 匹配率
    ) v) r: [$ ?8 Da = 2000 , 65.3%
    ' u% h' H2 o2 s! w  ea = 2500 , 82.2%" ^% y% y8 T( V- E7 \
    a = 2800 , 92.6%/ T: b2 Z/ \; w) E; K) o
    a = 2900 , 96.1%3 X. `3 ?8 Z0 r
    1 S  N9 C7 p. G0 p3 ?
    誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德1 h' z! f9 ~2 }7 G. m+ `3 p; {
    此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據+ O9 _2 A3 B  C' i7 Z; R& L9 x' l" o

    8 d& |7 f+ R5 z$ o6 ?/ B
    1 _& V7 T! ?' e: P4 V) Y# C$ Q2 h
    $ f  g6 o% s+ n3 \$ \: F
    % u" s' t4 K8 x6 K9 i5 v7 q5 P

    + G2 B- k  s8 ]' sPS.
    # X7 k" d2 J) l* u2 |; v所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    9 O: e. d5 w/ {純.......參考
    2 L9 e. ?: ~% N" V: u并不需要真的去計算
    7 r) p% J& n1 i" p  f# \) q8 g" ]而是了解此現象. B0 Y, A& h% n& g, b: h
    把定量分析的性質
    / x4 u0 Y3 M, o" n轉化作為定性之選擇字表的依據的應用. l9 y8 Y# C) H4 p
    $ H  e$ {6 Z8 b" U# @, A  ]6 j% L3 F
    ) f; _/ Z; f. a$ [2 Y

    ; h3 H0 x2 t7 Y- ]  x4 H) ~+ F8 `  H

    0 r, a7 m, z) ?$ L) B8 u
    0 N3 Q% p( [, R$ T
    , C" o- F# K3 d' {# `, o/ h0 J/ K) l3 L! ^: P/ v  q' O, p, f
    3 T$ f, [" f  s+ W1 a/ `

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑 9 C% S$ f8 d3 h8 ~: p  X
    oversky 发表于 2019-6-2 18:20
    * ?+ k" V- F( I2 W$ [如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    % s6 t4 b$ D' W
    # b  h+ \. o+ p0 H/ j( D, i9 a8 a
    oversky 兄:
    6 e! j6 v8 q1 Q0 s5 L外研社新英漢詞典匹配度大概如下:- i7 p% Y# w4 ?! D9 F  T* C  E
    共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795
    , s: T+ A- F/ U9 N$ M7 N/ h+ t
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374
    : M3 T% u! y% j7 D. Y6 o  N但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172' k$ f2 Y: g% C3 M+ I" w1 [% l
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度$ t/ ?: Q0 L6 v& C  {9 @+ W9 i
    經過算後匹配度 = 63.445 %- s+ a" O# n1 t+ r5 D; c
    由此可知選用的字表並不佳.......
    3 j7 ?+ [* {; a8 w7 H, ?2 W

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑 $ X$ v* F' r+ v
    oversky 发表于 2019-6-2 18:20
    : P( Y0 H( X, p% N* S- z8 b如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    9 h( t) ]- N8 ^" H- m2 o1 g1 V: L
    oversky 兄:8 V8 x$ y/ U, }, @0 |% ?
    另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典
    . R# l: P% s2 ~8 i
    & i9 p. ~$ x+ a8 `( D朗文當代大辭典詞典匹配度大概如下:
    4 ~$ {0 `3 h- q6 o6 U8 H# ~辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 2039) r, @' t: H( u0 M( y7 h' n; l
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190
    : S3 @, B; W; Z' m4 Z但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995
    ' }2 J- v4 q- M/ X: t3 k+ q6 p' x但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
      K, b7 B. K. C+ l) M4 W! J) [0 |" {經過算後匹配度 = 97.289 %" x2 e# \4 m4 \$ O/ z" V
    由此得知應該算是不錯的選項2 |# f# F5 b1 ?& D) F
    : i' p: k: P3 W9 }9 w4 _

    + \) a8 d/ q% {% X- \

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑
    & O8 V3 D# n( B0 g; Q& `
    dailiangzhen 发表于 2019-6-2 17:29
    * e8 E* o* H: h: f5 Y6 L6 U. [% G看不懂呀!!不过看上去,挺高大上的
    3 C5 I3 P* Q% g9 y) F
    * ]6 O/ \5 e5 W* Z3 r/ R
    dailiangzhen 兄:% a$ f6 D) }4 m8 v
    沒有
    高大上

    4 v5 M/ `3 ^, `# P) t/ r: q: ]; V! }% n9 z/ _7 X3 m6 F
    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑 : a$ [: u% }& y6 u% X) d4 H% d7 h
    oversky 发表于 2019-6-2 18:20
    4 x# V9 i. h4 J* v如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    8 y* B7 i2 J+ c0 o

    ! k: ?3 V) ?$ W: xoversky 兄:
    ) x/ d9 ~5 H3 e. j/ ^7 {' {# r& O
    误差在前后一页

    0 v8 T& s% S3 {, y2 i這個不太一樣# D; g: s# _1 B/ h5 T6 u
    您所在乎的問題是屬處理英文單字排序的問題
    # g! V7 K3 Z7 S英文單字排序處理好了 vlookup 不會有錯頁的問題7 x1 I( U6 ]1 q) c9 v. L5 N
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況
    6 Q3 J" U* [" _% n5 `. d) Z- K& K; n" H7 N
    ; f  d1 {; B( h4 q5 P6 x3 f# @
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20
    # {; m2 D- }" r, H8 V4 d/ G$ m如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    # {6 i( C- ]5 B2 s8 {9 B
    oversky 兄:) n* P+ O& J. A/ T
    小弟過兩天再以外研社新英漢詞典 那本為例子
    % U8 F3 B" i# P0 L計算一下其匹配率解釋說明您應該就大概會了解了
    9 e1 h5 ]7 h) w. S7 Y
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49. Z: i# z1 M6 K( Q6 S+ _
    dailiangzhen 兄:) B! H. Q; N- Q# g* \8 T
    沒有 6 K2 x$ U# V4 ]
    2 O5 ~* x6 x: W
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑 + _' ~4 s# e0 q$ ^8 r6 w+ @0 J% T0 f
    dailiangzhen 发表于 2019-6-2 19:34
    . F; B* ?" D4 _' i大師,謙虛了。一般厲害的人士,都是這麼說的 :)
    2 {) C( a) L' l0 H2 a8 j9 h; a. t

    - O! H8 S% c3 n* s3 Wdailiangzhen :  o9 t/ ^/ y$ d* l
    仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    # |7 _# o- o& ]% s若有硬純屬 placebo effect% W  d1 \8 S) b7 W3 ~' r, [6 v
    哈! 哈! 哈!哈! 哈!* X+ M( E2 m) L) {1 n9 u/ \
    # H2 Q4 G( t7 _2 Y* d4 M6 \
    ( u: E5 b+ Y2 R* r! q5 ?% x
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑 4 z( B9 \& [- k0 W
    thresh 发表于 2019-6-5 21:36
    9 t. J$ }. l8 R这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...

    + o* F* U' a. D2 [5 R) a3 {! e( k0 d6 q" y7 U1 o+ D) y" l
    thresh 兄:2 v. X0 g% r& Q
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表: g) y" u1 h, K6 F

    4 x; j; Y5 x: @6 A3 i. A; c( h0 T5 ], H5 x1 ]1 `; T
    此是用- N& y; L) p6 W% j/ O
    1. 每一頁的第一個單字集合而成的單字列表 or
    : O4 d1 j. ?4 v- m+ ~4 r& [! J2. 每一頁的最後一個單字集合而成的單字列表 or/ t0 h' `8 d0 H5 Z3 s
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數
    0 A) h0 p& N# S, x5 X0 Z2 V; U, H* }7 F/ A, n, z
    1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確
    3 d- j/ C8 V$ _8 }1 b& p/ o# W5 W  k6 L
    $ Q/ @) z4 ~' w8 b" G3 q
    1 F; O  n2 W7 \" `) {! e4 M
    然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量
    + q7 F* N# r, N/ ^/ ^6 `0 x有對到的當成是 合格樣品
    4 D6 T" C7 e0 q2 m沒對到的當成是 有瑕疵樣品6 H3 \) C; f& ~4 |

    9 a. O" z5 u5 i  C' i3 p此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加, q' \4 K5 {$ b6 X( y: _
    此可由小弟所假設的例子得知; L" W+ V; Z# E3 W
    - F* {, m1 v/ p9 B$ F7 Q" Y8 r5 [5 V
    此是以計數值的(single plan sampling) 為基準" Y3 ~- s4 b+ B7 A; u* x  b' t

    0 B) u: R7 J  q所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已8 K! s) Q- w) l% Y. N( {
    純.......參考. F- c5 c0 {$ X% C
    并不需要真的去計算, S1 S( v. i+ S: E7 R% B( n
    而是了解此現象
    7 }8 h$ Z! v% j把定量分析的性質/ ]2 J+ f" o  ^
    轉化作為定性之選擇字表的依據的應用
    & I; H& H! e9 L, R2 E( l+ z# |5 U" P1 K( q: c' W

    0 M8 Z* \( @6 {1 ?8 D7 _
    6 O. ?% r+ Z  S( m1 {7 R# f& K* _  s" k' O6 F
    ! Y$ ?* }1 T" e; r0 [
    : Y" A% y; f; R7 g' A' Z3 b
    ' q/ i. d; j: B# b! R
    * M% z1 ?5 V# y6 n# ?) [- T
    & ^5 r2 J( Y% \9 o1 z
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30
    ! o; y$ I+ B! a5 _% }" i2 Ithresh 兄:
    7 i) t" o% ?. W5 }小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

    , ?; L. Z" c1 S额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    : J7 v1 g) x( _4 ~- A0 B9 m: S) H/ t5 Z
    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?
    # S' n9 Q2 ]8 {, o/ x. k+ s$ j7 U5 e
    如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    * E0 U2 U5 h, R; X8 N额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    # t# f+ e* P8 q) G3 N1 V& E老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑
      F$ P, n% X# D; d) n" J6 T
    thresh 发表于 2019-6-7 00:03/ N0 t% d1 v% I" c' O
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    # Z8 p* K0 t) d( ?3 j- W' y
    2 S6 ]. A  x# R* J* i- w0 w! E
    thresh 兄:
    2 U/ F/ p& z7 t& U" V; U) s
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?

    & Z+ ?- s; n& {  s; f( x: l/ }; S5 D1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值
    4 M, n! k7 @; b6 I; w" [# m! s  T! C' ~+ Q  ! M/ A" M+ J( \" F/ y3 u/ h9 G  W  l
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   
    % I7 [4 b7 M! H; V) f
    2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配
    7 W4 |' e+ Y5 W" Q* Q2 q. T& [* |" j% C5 p: _) d+ ]( C8 N  k5 m
    若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的$ X5 b) F6 m; i# Q2 n2 T$ t8 {& X4 L
    計數值抽樣檢驗方案及程序, 應也有各種公式的陳列
    3 H  T+ s6 K. ?; Q
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41
    ! a5 G! B0 t9 r" ]thresh 兄:( E3 q: ~6 k9 v6 R

    ; _# n/ V$ u8 K8 k6 x) t! t% n1 m1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...
    / {$ T& g) R$ e0 q( r: u
    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-26 11:46 , Processed in 0.076188 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表