掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3768|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组
    ! x6 f8 f) _8 x* U内容包括:. k; _2 O! b9 q7 r
    https://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507; E0 J6 p  W" T  }6 B  o' l$ y
    1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    # j* F7 |' o  C' q2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
    5 N: t) }0 u4 P: C: N3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);$ p/ s- U! h1 k; ^1 S% p
    4. 牛津双解词典中 星标词组 (298个)。
    + ?6 G7 q$ Q/ y/ q2 V% d# w8 A; Q7 q3 ^. C
    如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?9 o% ^* S+ v" y: Q$ E) {( |( |
    希望集思广益) u4 R& z& }8 i, \) q( u

    & G! V- O% n! r2 Y

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。
    - y; |0 z  L" F不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。
    * T6 T8 l7 _) g5 A1 ^然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    6 w, k4 g: C; o  Qanki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...
    7 S/ H9 d! P/ }8 m/ F( Z- j
    谢谢指点。
    - ?$ l% W6 N) {& I% t! W; J& F短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。
    : ?" h) ~( W% M1 q' F* j" P* M: I( `/ Q
    需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑 ) c! l2 n* l/ J1 S! |

    0 Q$ m0 m. ?4 l4 ~) C" K这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    ( \6 \7 e, r. g- a
    8 o  _" {9 ]* R& Y8 ]4 H8 M简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。
    . V1 P/ L1 p- N* [
    7 J  Z0 l+ j# ]8 H虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。! F9 |% f- Q: P2 p
    如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。) ]& n( ?# f; `" F/ o

    2 M& u* r. @# b4 ^' [+ \ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……, B$ K, f+ G* C$ e: c

    + ?- @" b& @5 J* u" |; n( v0 B! G  |. y7 ~$ N6 n* o+ L* d. I2 H
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23# C0 T1 y& |# m0 Q8 Q6 y! w
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。4 I2 N1 |% h. Q6 g
    6 Z. O: V$ t' e9 T
    简单来说,就是 将 xlsx 转成 csv,然 ...

      k  V/ g" c) `4 H9 G3 m) c不知道插件对短语词组的支持如何?
    / z7 V5 R4 I1 j& T9 y( J一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等5 h, K, ^! ?3 ?! l* W
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句
    3 O7 i! ]' f/ e0 D) ~" Z) P9 R4 T" t3 }4 A7 ^: m. @6 |2 d* a4 @
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 3 x; X! G0 [. n  h
    cocowind 发表于 2019-4-26 20:027 K8 {3 Q1 u% i" i; r4 Y
    不知道插件对短语词组的支持如何?% V4 [6 H' \) t: W9 y3 g" J% k8 p
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...

    1 @7 e) D4 ]1 H7 Y& Q这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    ( k7 ]4 c0 m4 Y1 U& V9 _; }: |& c* I# A' y4 i
    如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。
    8 @3 `$ a! H0 m, {; }# X8 R. n
    ) C6 F4 @! [+ i& Z当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    $ y4 q8 @, b7 @9 C' R, |# v8 E: `" l( u% S0 i
    插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33# i0 p! B& }3 k: I4 w1 I* W
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...

    / {' u! A( ~1 J0 G4 K4 ]0 \4 A8 d谢谢指点~& S' D/ O0 b( l- B# B
    $ q) m$ w# S  h9 Q9 Y2 S8 R
    看到这个方法也许可以借鉴一下
    + o% [+ Z9 H( Ghttps://www.pdawiki.com/forum/thread-11546-1-1.html?x=1805071 a. p" n( G* i5 O3 A
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了/ E3 _* [5 X! M8 V% p3 P) E1 N+ V

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48% K  f1 ~/ \. i! s6 h1 W
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    ) C: e2 J- m' R( r% {7 K7 n: r这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑 6 B% t* u7 ~5 \/ j- I
    脚下千 发表于 2019-6-12 03:12  R% H; j5 ^6 y
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    ' W* T2 @% N- ^. S, t我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    % S2 \  ^$ q5 B. A: Q& x+ B1 K
    3 N/ j: ?5 H7 q( m8 ?5 f) Z) d2 g+ y5 s

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑 : y7 x" F9 h1 m$ f4 J
    xusorn 发表于 2019-6-12 07:27/ Y2 |2 k: I: w. R+ i
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了

    + ?7 s) O! e: q, @。。。
    8 N( l3 F/ N& J- X
    0 Y) @1 M5 u: H+ N' t* C1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”' ?, Z; m6 j$ f8 O! }4 x7 E

    ' L5 a! t" ]  \0 q+ \; t* I6 k2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    : K+ X; K2 x8 I! K) D% x- p- X
    % Z2 R; ?! I! ^: A3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下" U! p6 G7 d/ o& v% h
    6 ^1 W+ t- \0 u+ S5 Z# h
    4. FastWordQuery 我首次回帖就告知了楼主
    $ A+ G* s  E$ R$ C2 n6 T
    ; \6 D1 Y3 ?" r. w8 J$ P: j) d( k5. 我不是楼主6 S. M2 h7 W' i; q
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05
    * v% F- q% ?7 g5 Y6 {6 A0 _! m* J% ^。。。# I$ ^7 G% Q3 q; R2 u$ X& q! p1 B$ u
    : ]* _5 Y$ J/ X! n! @, v! j2 Z5 Z
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...

    ; l- d! O+ j* x" u6 N我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”
    4 D* P9 \2 M' f; o0 h* k我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。9 n' Y& p* H3 \2 b7 h2 o2 ]
    你说目前词典少,所以我就把论坛可以查的词典多告诉你了。
    ( k/ r  ^$ m# Z9 N$ u1 g结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑 " U# A7 b- r& j
    xusorn 发表于 2019-6-12 15:38
    ; w* z7 z9 M( D8 _2 t# M我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...

    4 X# K& J7 ]" l0 d* p之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!
    ' D+ N% v# I. `# n+ V. H9 m# {; y: \0 D$ ^' `- v, W1 D; c/ r
    算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00
    $ U, L( X6 z. r之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    8 e+ h& N' b' _7 \% X2 w# A( G
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处% V. ]+ p+ X: k' X3 l9 h
    1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。
    / x! y8 |3 T# O/ x# }3 v6 ?  E2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。, n5 l; x! l6 d9 j
    3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?- i2 O4 n  e- e$ y) ?
    因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-8 05:31 , Processed in 0.101042 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表