TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 9 s# ]1 C o- F8 Y
6 T$ U! y5 \8 Q( v
辭典詞彙量估算匹配& V* [2 o% W. k$ o# i/ K
在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
6 j$ J) o4 D; i/ S, ~2 t% _延伸此點交代不清之處) o, G8 W; z6 F) e$ ^
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
+ y: y3 t- m) v. |1. 要先預估其要製作的辭典的辭彙量, ; j3 K& s& q' @0 V1 }1 h9 ~
若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
' T9 C _6 d& d, J 可能辭典序言上標示的辭彙量也不一定正確
* Y9 G$ H: m; b8 A; W4 i' E 此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數, ?0 R% O% X& _% n: V$ S" a
算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量* R9 ^- G8 \( _
保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧8 |/ o, P; ^+ d3 \# m& r+ Z* R; x) |
因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
, k/ O. P6 M. Q( r 問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找% q/ N" m" B& x0 P7 W( ~. l
9 S+ I J6 Z: y9 PP.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
. G+ I9 X. D( p l. G% H) R效果真的不佳
; y$ M# s! r$ S* b4 H; c此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁
9 o: x! _) g1 _8 S7 R也就是說只要配到 26萬多就基本含蓋了
1 e. a. K: _; B4 z0 G! u2 ~/ i不需用到 47 萬多的wordlist 來配 % O) y6 \% P5 W) F& Q
其實用平均值6萬6 以上配, 應該是效果已不錯了
1 \6 j2 S7 h( {8 Q4 [僅供參考
8 e a2 b; I) V# x2 M$ s9 x) G% Z每頁匹配多少詞條可用 countif 來算% B) S7 B# f0 `. D
比較一下每頁的詞條數和匹配的詞條數4 B6 c1 o0 @1 y! a& ]& V! S" M
若是各依其數具計算出來的平均值和標準異差都很接近
$ W# a" j4 K8 | |/ {+ `, f& Z1 T那表示你應該匹配的還可以吧
4 v4 v( N% D+ T$ C4 z4 L/ w5 d) A( t2 C) P: Q6 _0 G1 h: h) F
辭典詞彙量估算匹配_4............應該是比較合理的預估模型; r6 B7 x* `' E7 J3 Y
(書頁詞條數-匹配數)<= 沒配到的詞條數/ R: m$ X( A# w4 V- q8 N4 W
以沒配到的詞條數算出平均值和標準異差.......各乘上頁數: g& N6 h' o2 j- W9 Q
7240 , 3726
: }, q2 `/ M/ C( W( n: H也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數3 J3 d8 f; Z6 @, M2 O
所以用 66595+7240=73834.......大概都能配到的平均值
$ K R3 a9 `/ q若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
: G$ [7 N4 u$ v) |. Q所以 min=73834 max=85013
4 `% m$ r: ~ `' y7 z& o9 [ M/ Y# _/ }( ~; Q3 }" k$ P3 W
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 词典制作|主题: 111, 订阅: 24
|