TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 - E4 m. @4 a( t0 J& c& a
5 {, O, s% [+ }2 @
辭典詞彙量估算匹配- N0 W/ j& K G" i, u) k% M
在此提供試算表 您可自行預估拿捏 wordlist 詞條數量# }- H9 N3 a6 y# _8 a
延伸此點交代不清之處
+ a( Y: m0 P- w+ h4 Chttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=% Z0 q! i+ B8 x8 `% k
1. 要先預估其要製作的辭典的辭彙量,
C+ {- T2 G$ q3 k+ B8 b 若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量6 W S/ r* m1 R* w" D
可能辭典序言上標示的辭彙量也不一定正確
- F+ Q; K$ |* y 此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
# o. n' n% n/ O3 o/ [+ U" y8 j 算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量
3 P2 o9 H* ^, @4 T6 D 保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧( I* Z' h T! \5 w; M
因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
3 v( s0 i, s& D6 X! x 問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找
: ]0 r3 X9 E% R0 K/ ?; S3 |+ C( i- u
P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
/ _0 \ x, b s% }" q5 E% F效果真的不佳& M4 A5 n2 a! B4 Q6 [% ~4 x3 x
此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁3 R1 E; r0 A0 \
也就是說只要配到 26萬多就基本含蓋了0 z: _ j o* W9 ?' M
不需用到 47 萬多的wordlist 來配
K4 |: C1 z V5 x/ k. g9 ?其實用平均值6萬6 以上配, 應該是效果已不錯了
( Y7 u6 d: t0 c7 `僅供參考
) A) ] T( h' X2 o4 P9 ^5 b每頁匹配多少詞條可用 countif 來算; F9 y! @4 w' A/ }: `( x
比較一下每頁的詞條數和匹配的詞條數
7 o- ?7 @0 d) I Q3 e若是各依其數具計算出來的平均值和標準異差都很接近6 E7 x: o+ Z$ {1 N
那表示你應該匹配的還可以吧$ h" Q* T# n* c& g9 P" E6 W
@; ]4 V& D. u) W% E* R
辭典詞彙量估算匹配_4............應該是比較合理的預估模型
1 R- Q! N: P1 q(書頁詞條數-匹配數)<= 沒配到的詞條數8 l$ z* ]' ?+ E q5 ~! x& F/ r
以沒配到的詞條數算出平均值和標準異差.......各乘上頁數 h* `: q: z# A+ u
7240 , 37263 \: T; W& r0 a% ~7 f
也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數9 I; J' O, Q: ^1 c: E# i* ]
所以用 66595+7240=73834.......大概都能配到的平均值
, b2 h4 A+ M& a6 i, E若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
}, Z9 K8 r: c所以 min=73834 max=85013! T- r& E+ j) ?" i# {
& y3 b1 Z1 G6 b1 c( a' E |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 词典制作|主题: 111, 订阅: 24
|