TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2019-3-21 21:08 编辑
# y! _; @! w R* ~# q
: p2 n& s* j5 V" i辭典詞彙量估算匹配# `5 j; S' F/ i7 _1 a! s
在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
+ w) i4 t! Q0 |. r9 s) E延伸此點交代不清之處
2 y- ^, g/ z3 [# W4 v- o5 zhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=; P' `1 `( D% J2 f) o5 |
1. 要先預估其要製作的辭典的辭彙量, & }5 h9 m. {* }3 H" V4 M* u1 p
若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
- k" Q7 D4 u# ?9 H5 L 可能辭典序言上標示的辭彙量也不一定正確: y0 V* ~7 ?0 F6 k0 S
此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
) {; B* V: |6 W' g4 c/ J 算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量
6 X) o5 }7 ^7 i! e 保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧
0 @; r' d- B, t6 S p. ]9 z 因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
% z5 \0 G4 _ A; C9 ~; G 問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找8 V5 g) H" A$ }# w
1 P; ]2 i: v6 A8 z$ a5 G! ^P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版) 4 _% V0 `& a& c7 ~# o/ u2 Z! s7 h
效果真的不佳8 u2 M( m# X8 a" p- W
此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁
! k/ K/ o& D; i b. _( E也就是說只要配到 26萬多就基本含蓋了
( f0 S. Y4 w6 i7 P5 T0 s1 h不需用到 47 萬多的wordlist 來配 / y8 s+ N! t! w7 M( f
其實用平均值6萬6 以上配, 應該是效果已不錯了
1 n8 X+ a3 V& }6 b: t' I僅供參考8 Y$ |; Q+ c- p6 @5 y+ a- F0 _' p1 q
每頁匹配多少詞條可用 countif 來算. j, Y4 X) x1 F& _
比較一下每頁的詞條數和匹配的詞條數
0 h& Q: x) q, q" M1 d若是各依其數具計算出來的平均值和標準異差都很接近( w5 C3 K& M& R
那表示你應該匹配的還可以吧
3 c3 B2 |* O7 I4 U5 b
% P* n; D4 t, {/ ~. s. O) o' P辭典詞彙量估算匹配_4............應該是比較合理的預估模型
# D, D! _. T- r# O4 d(書頁詞條數-匹配數)<= 沒配到的詞條數
- b( k; b+ o) f% q/ F" i2 y# G( Y以沒配到的詞條數算出平均值和標準異差.......各乘上頁數
+ s7 |: z% f" {, N( s; x# d F2 I7240 , 3726: E8 ^$ j3 \. r7 D, R
也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數
/ H: [- Q+ J+ A所以用 66595+7240=73834.......大概都能配到的平均值
0 L" t1 i) R' e4 ~5 w若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
0 i* u; r% ~( m1 ]3 C所以 min=73834 max=85013
$ e( k6 c+ t) G K" e2 x* s! a! p, p# n0 Q* D
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 词典制作|主题: 111, 订阅: 24
|