TA的每日心情 | 衰 2018-6-17 08:57 |
---|
签到天数: 49 天 [LV.5]常住居民I
|
本帖最后由 mahuangyihao 于 2021-4-28 11:12 编辑
, G( X6 H9 L% M- X4 p9 _+ B2 P# B% t* o) B( @7 k+ U( }
首先感谢yikelee的各种重磅,anki是个好东西,但也得有好内容。好马配好鞍!在当今纸质书日渐走低的情况下,说实话,大多数人买了词典基本就是积灰。anki+词典的模式,可以说是词典的第二春了。& [% \5 M3 X! K9 @
+ _+ r7 R& x" Gyikelee大的记忆库从收词角度讲,基本分3类
, T5 }6 i$ Z+ P( Q初级:朗文3000
: g6 f& [6 U M( a" V2 ]/ T$ K# p; J高级:牛津5000+朗文9000(排除词组,只剩单词,去重后约8000)。这个级别托福、雅思基本够了2 m( w" Z$ ?; ^
词典级: 中阶词典2w+,高阶词典3w+。主要面向英语专业人士了
# G1 t7 H$ n( A# P7 a
1 S D* {9 y; F( i9 C- k另外有个超级大包子,把 口语13500,牛津5000, 朗文9000,麦克米伦7000,柯林斯星级,合并去重,一共是15737个卡片。
0 A0 O8 _7 T& n- C, B
) d4 _; h! j2 R* M2 C现在很多词典都标注了词频2 A- V+ ?4 S' u: N9 H
朗文9000:分3级,每级3000。总量虽有9000,但去重后为8000
- o+ Y) x9 Q5 Y" v+ `( b4 y1 ` }6 n. |
牛津5000:牛10按照CEFR的A1~C2进行了标注,但只标了5000词1 \# ^- w, P. h1 B+ _3 i5 u2 h
A级 1700: [% m. e [9 ~$ j
B级 13008 l8 H$ N0 Y, c7 \
C级 2000
( Z5 O$ E* S' k- p' p. P/ e7 ?7 k' }) e& U6 X
麦克米伦6800:分了3级
, f5 o+ A1 b; v" W, X: P3星 2000
3 b$ D8 ]4 S/ B% e2星 2300
0 `. D) j$ K: P- M1星 2500: F, o( @6 r. j
) ?1 C0 I5 D( R7 t* C+ R) ~
剑桥(或CEFR)9700:完全按照CEFR的A1~C2标注,注意这里是包含了词组的,去掉词组,则只有6500
. n. ^6 c. r8 zA级 17002 Y R5 u& q( u- Q
B级 50008 X8 ^3 K T _) I: g* p s
C级 30006 \& I0 ^! O( i' N7 `: z
' W4 V' S% p/ C4 q/ E* E柯林斯:柯林斯3把单词分成5级,总共标了1.6w,其中5星~2星共计8000,是最有用的。后续版本简化为3级,而且只标了3千左右,基本没啥用。但柯林斯这个分级个人感觉一般,很多不太常用的词也标了3星或2星。
+ ]: i4 _ g+ @% q% T5星 1300
2 @; a0 D) _4 |- ]7 B" g; X: p4星 1400
: a' q" t( H! p% a& o3星 1800
6 S1 P6 q- G+ D! c% ^2星 3400
) [/ z) a- G; ?7 H- W1星 82000 O+ e) e- C. k
: b2 k1 n+ C% }6 g7 x- r
3 r3 B+ o) K+ U由以上统计,个人有些建议
. I ` _" G) |7 V, h9 }( g/ z7 m1、初级收词量2 L0 c0 n6 Z2 {, H' d1 ~ N) R; D
朗文3000+麦克米伦3星+剑桥A级+柯林斯5星4星,我算了下,除去词组,总量3200 ^* u9 S' Y( ?) P; e
7 ?- f; ]. N5 |6 N# b c
" ]8 T8 o' e) a& ]
2、高级收词量
# u4 ?% B1 M) A2 t* e这里需要说下牛10的词频标注,总量5000,比较尴尬,可以说是个历史遗留的问题。当初朗文异军突起,搞出个定义不出3000词,获得市场的欢迎。牛津就比较尴尬,跟风吧,放不下架子,不跟吧,市场又有需求,最后拖了几个版本,弄出个自己的5000释义词。但5000出来之后,朗文已经标注了9000词,对门剑桥也弄出了一个CEFR标准(涵盖1w词左右),这么搞基本就是把事情做绝的节奏了,因为1w词以上,统计上标注意义已经不大了。这牛津就2次尴尬了,这个在牛10上体现出来,就弄了个四不像的东西出来。
- k$ Y" W4 {! d! ?( s4 {对于高阶词汇,我的建议是朗文9000+麦克米伦6800+剑桥9700,除去词组,总量9000+
3 S9 |( K" _" [; p/ j: D: R
- f" P3 I7 a- p7 h0 d3、词典级- Q: Y% G( q# X, K* V3 `
卡片主要还是背,整部词典感觉还是查询的场景多些。另一个场景是英语专业人士,这些人词汇量应该在1.5w或2w的样子,yikelee大做了COCA和Ngram的2w的记忆库,基本就是这个体量。1 Y" u# _+ h! M- i7 r
我的建议是,用中阶词典的收词范围,用高阶词典的释义。就像开头说的,中阶词典收词基本在2w左右。出版社在决定不同级别词典的收词范围时,应该是有考量的,后面已经有了原始词频统计和人工筛选的工作,这个做出来一定很棒。# n; }, C X2 y2 J
" s* U1 ]) Y0 H A
做过词典的应该有体会——特殊情况特别多。无论你程序编的多完善,总有特殊情况,需要迭代很多次。提取首词也是这样,我在提取剑桥A1~C2单词的时候就遇到很多问题。收词量参考多部词典可以避免这种情况。9 X1 H# ^# [! j+ h1 I& { R
4 N8 }+ z" j7 {6 B& F9 l以上提到的所有词典及其收词星级等,如果yikelee大有意做的话,我可以免费分享。
$ M6 a/ P, Q2 w
2 r K+ U1 d+ w. \! R s* P本人现在用的是LONGMAN 9000 (ldoce5++) 双样式,感谢yikelee大的辛苦制作。5 b' ?" }$ d' J8 J
% Q8 K; N, f" [2 S* kanki区已经有牛9的作品,期待楼主朗文6的大作! g- X9 i. X2 Q& v3 y
$ X( M+ X% T, J0 }- ?) g% o
+ q& z W3 ?3 Q" R" ?! e% L8 j- G4 C0 Q% [$ W' u6 {+ Z9 c
* g8 A8 x" ?' C# B" d |
|