掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3730|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组6 O. v6 k/ t2 y. n
    内容包括:3 U1 v  R2 `( C2 H/ m6 L# u
    https://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507
    , u2 D& R. |+ I. ^4 J: i$ z1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);  b4 Y3 e3 ~& [; Z; O( `) U
    2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);/ Z9 |2 R3 V% l; T$ X
    3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    " F! U9 y. r# R" {+ t9 K' R4 |! Y4. 牛津双解词典中 星标词组 (298个)。/ O8 E+ Q  S# e! _) w/ y
    3 `* m( a; ^# D
    如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?! f& T9 q9 W& d5 R
    希望集思广益& R2 e1 E( D; H
    / M. x+ Z& q7 Q0 S* z& u  q

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。2 v: I* ?% ]- I, P$ e
    不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。
    8 D/ q3 G9 F: M! s) U: }& A5 N* }1 r然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    $ [5 i& f- f# }4 f) r  Y( U; L0 |anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...
    ) W1 z1 z) v- {3 H. p; M) L
    谢谢指点。
    8 X; p. F; h- l8 M短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。& ~- x" v+ p( V, |3 x
    ! j) E5 Q. \( r8 W( u4 o" }
    需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑
    6 K$ j4 u. E$ ^
    ; i' n; i) `. D& L2 b1 I这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。$ c$ q  i2 Z+ n( @
    4 o7 r; y5 l6 |8 R0 c$ W
    简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。
    1 Y# `% Z) |. g5 i* L
    / y& d: d% ]7 l* u5 t6 \虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。
    : Z+ Q9 w, g) g  m" d2 M9 {如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。
    8 f. R5 G! n! S3 C# b
    6 r# H8 g& h# G; ?- `* c2 Gps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……5 N4 |; L- X2 ?/ u0 x! S8 A

      r+ V3 c8 D( F, v  q
    2 I$ [+ O* b  e
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23
    7 m( r. z+ M1 r4 N6 T9 Q这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。5 y5 \" a6 U, a! X% ]
    1 P/ b/ H( F3 p
    简单来说,就是 将 xlsx 转成 csv,然 ...

    . `8 c; F; T( y  g; p/ x不知道插件对短语词组的支持如何?0 I* {& Y' h- |" Z* c
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等8 P* Y" P, R; H7 Z
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句- e' ?" P8 U1 S$ w4 j

    * Z, w; R+ Z/ \# I& B! r% V
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 4 w' a7 \. j+ E& C6 v* f" `& f
    cocowind 发表于 2019-4-26 20:02" ^$ m) `- C6 L* Z0 Z
    不知道插件对短语词组的支持如何?
    2 a. u% A' ]/ d5 ^/ ~一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...

    ) N3 y$ \1 G" a' Y$ M/ R; L) W这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    6 J6 L2 J7 A8 j- Z. s7 C: R' X, K/ o3 q: p
    如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。
    % Q' S/ M1 K8 O' _& b" t3 @, R  E' s4 `$ ?, }. l, L  e% R
    当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    7 c" @  O' b) Y. e- S
    * Y* y' q' z3 B# h8 Z插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33
      B' X4 u1 E& [( }# S! G+ O& f这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...

    % C  W: M% @& x谢谢指点~% \& I& P- v# k; k' Z' g
    % `8 a5 d4 m; B# n4 R4 K
    看到这个方法也许可以借鉴一下
    % x1 I8 o2 \+ m7 T+ z2 q: `" Ehttps://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507
    7 K4 m& N( `4 n' Z
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了
    0 b7 w) t5 e* w# M1 k8 w

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48
    $ k$ f6 |  Y1 y  U4 ^0 U# p是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...
    ! U* o. c0 j. u
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑
    ; }4 r' j3 x* q, `: [& g7 b8 h6 E
    脚下千 发表于 2019-6-12 03:12
    6 s" W1 ]0 c6 X* Y这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...
    9 y' G0 r7 Q- z: g/ @* {) j8 e
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    9 K  K! E& v1 J% z+ j3 P3 `0 C) O) N

    * W2 F4 \! A0 g1 ?6 Y1 k: q2 e

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑
    * E) Z8 K1 C# b+ G0 X
    xusorn 发表于 2019-6-12 07:27( g# |( z& l2 j% e( r
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    * ~0 ]1 |% A( F0 n6 U/ F
    。。。
    * v& [( m: `5 P& e0 V0 z4 H: y7 p; k1 ~) F. Y
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    9 H. Y# Y+ e% C/ M) r6 P5 `6 L/ N: f. h
    + D; H* B7 q# ~2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    , q  M8 T( F' m- [+ }; V8 U- R8 V4 D/ j* S" o
    3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下2 |& v5 |3 y  B1 D3 Z- r
    " F( ~$ n3 ?7 _/ j( n7 o: U8 T
    4. FastWordQuery 我首次回帖就告知了楼主/ w2 B& i* U' `9 b6 u& I' f
    6 e+ I' R( x1 @4 b8 b/ s  R& Y/ L! E, K
    5. 我不是楼主
    5 ~- {7 M1 I  {4 h- J5 k
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05
    * v3 G; H8 D/ K1 c2 U。。。! M3 k. n- p( Q7 J. k! U

    6 M, ^5 N  H- A1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...
    ) L! q; f+ g# U. A' s; z
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”/ Q$ R& o- ?8 r3 d( @9 }
    我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。9 p0 X6 k3 l9 y# |  w  _6 s, g' t
    你说目前词典少,所以我就把论坛可以查的词典多告诉你了。/ h* S7 r% R+ J6 k! ?/ v: L) b
    结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑
    5 q5 {0 {# E/ B8 z, c2 a
    xusorn 发表于 2019-6-12 15:38
    $ m. v" L; Z- V2 H% [2 l0 A7 b我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...

    , |. x5 m8 ~. I0 r, P- D8 i4 Q之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!# @/ W. H) n3 g* U2 J- T. N1 |
    * Y% K6 m% W+ Z" I
    算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00' u/ h0 l7 m; q2 S7 m
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...

    ' ^6 G2 e# Q6 b. ^- N图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处$ g) G+ U7 S- \1 N8 O3 F0 v
    1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。' @6 [: E" S% U1 _) `  W' g
    2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。
    2 J# _* j. T# C6 ?! `3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?
    ( v, m. Z6 `5 U+ K+ l% Q) A因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-14 07:29 , Processed in 0.061996 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表