掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3764|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组8 Z% P4 W% ^1 \, a, Q
    内容包括:
    % i- u5 O! g7 Z; m  p/ d) ahttps://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507
    ! t/ j, O/ F) e1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);& e! I0 ^( n& r$ l, I
    2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);, v5 _1 c$ E" J; w
    3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);( T; D1 {/ Q& G+ |, }6 {+ S
    4. 牛津双解词典中 星标词组 (298个)。
    ! d7 }& u* T5 y6 P
    9 O" D; s6 k# ]6 N- ]+ j如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?+ e  Q1 ^# c# ]2 B
    希望集思广益6 h1 s# m0 }7 M& ^3 X! @" }* A

    $ K) A4 k6 m7 l, W+ Y- O9 [4 y/ y

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。
    $ M7 e8 H: B& f% c" D不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。
    ! W* ]' l  x8 J1 s/ b然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    # ^3 `" M( M5 {2 H3 i, Y: ianki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...

    & ?' y6 I# D$ m7 s0 ]7 X4 T8 X$ J0 J谢谢指点。
    ! E: i$ l# Z/ ?1 X" ?* R) o: x短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。
    3 f$ C4 x7 R4 |" j( t9 v; X& z+ b7 J: K
    需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑
    6 L, K9 k- C( e, T  j! L) t' ^" `" b3 o( I
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。* y( Z/ l% o. V& x* K

    0 X6 L+ w5 v% v, C* X简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。
    5 `0 M6 r$ V) P4 t. q2 K# r4 l
    6 Z. d# g% m- {& _" s! a+ o虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。7 C3 O+ }6 Y; n* |
    如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。% H& i; E4 W0 A) Y* [7 _6 y
    7 K" j4 U6 T& T4 w  O) i: u: j( j
    ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……; k" f$ o# t* H1 j8 M
    1 v! {1 s3 i: A4 }
    " I" m: n; A$ y0 J; p/ F  V
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23& C0 m! D* J& |* r% K
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。# m0 @! a) @- g+ e$ Z4 A
    1 D$ v( e$ d$ _' x! k0 |; V/ g
    简单来说,就是 将 xlsx 转成 csv,然 ...
    5 A2 z/ p4 h& |3 @' K3 [) Z( P
    不知道插件对短语词组的支持如何?- k8 k/ `- E4 _
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等; ~; |7 a8 i1 ^/ C
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句4 h4 ?- I- I) k7 ^6 I
    2 X7 ^; n$ A. N- Z2 X
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 + O! {* L) o' m! ^/ `1 y( B
    cocowind 发表于 2019-4-26 20:02
    , K7 M3 W" ~& ]' l: q不知道插件对短语词组的支持如何?  y# O4 K. S3 R! }0 G: _: g
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...
    2 S9 v2 s1 |( U1 r( Z6 W# n
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    + y1 I4 l" D1 z, i5 B8 A
    $ e# T) p, ~! v3 p/ @$ T( e如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。& m6 j4 h) I+ M4 b# @' x- q
    3 u  U7 F( K2 ?0 E8 d
    当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    $ l8 j/ M) r7 @* _/ j* U$ _1 `, m' j
    插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33
      `( s7 B% P0 O7 Y, i这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...
    ! X6 D1 C! V8 E0 W6 H
    谢谢指点~
    . L/ E$ a) i$ q+ C! j0 O' O# Z
    / w' \/ R  K" w9 `6 d. X看到这个方法也许可以借鉴一下
    7 j9 h1 J' S7 \/ ghttps://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507
    9 R8 y9 }, _$ d- P
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了
    6 l& O2 Z* c' j3 H8 P

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48, Z% Q4 h( b; I  t% P
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...
    2 u9 h) O  p5 J* H4 [
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑 2 g* ?) @! I% ]& C; a
    脚下千 发表于 2019-6-12 03:12
    # n. T6 m& g8 ?) b4 K8 \/ {这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    ' f) T3 S% U9 ^2 N4 D4 M0 ?我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了% p6 N) F  m9 {
    ( x' Z6 v, g4 V! \8 h
    - Y6 K( C4 B* p# E( y6 t7 Q# X9 I

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑 ( @- c! w/ o! O, X( I. F
    xusorn 发表于 2019-6-12 07:276 I. [% u2 W+ `, t: J* S
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    % P6 E! K5 O! i' m; j2 l
    。。。- J0 q5 j" N+ E2 \7 g+ p

    5 {; I/ I- v# b& q' z1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    + i3 X& C& {/ A: u8 e: J# ?. K. M
    ' b+ [7 k0 R, f' I/ g* g. ?3 }2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    $ l/ Q$ e- W7 F. W$ W
    - h# |" ?( r; K' Y# [3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下$ w$ {, ]: D% S' T$ e& R
    ; ^/ J2 b1 R8 n1 l; ~( l
    4. FastWordQuery 我首次回帖就告知了楼主
    ( @6 y- v- f0 _% E; u
      U( Q* e& @$ l5. 我不是楼主) D$ X' T. X4 f' @
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05, B; m# ^. }# w5 ~
    。。。; @+ i/ o+ C, w
    9 c# b5 Q4 s: L
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...

    * o/ J- m/ e  r5 F( P7 K我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”
    + q) `! @9 o! N我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。2 x: X, t8 U6 I  B
    你说目前词典少,所以我就把论坛可以查的词典多告诉你了。
    ( d+ s9 f! a8 l3 v结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑
      d* l3 ^$ T7 X% F9 ]# i
    xusorn 发表于 2019-6-12 15:38* z% s+ l8 ?0 j% y& y; M
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...
    3 r) p) B' b6 y# r) c3 M
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!
    : N9 K7 Z- X% ^3 e  B5 h9 L* }/ e$ u
    3 l) K6 z4 M2 |算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00
    8 z) g. R! s* p3 @* V: U/ ?! w之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...

    ' ]8 p6 Q: g" ^4 f1 ~- V' n图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处9 @8 Q; i1 p2 e  D3 D% h0 u6 I0 w
    1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。8 R* M2 p( A3 s2 p, [$ s* C1 G
    2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。& Z; G4 L6 r! k" b
    3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?
    0 w5 b8 U6 K3 _4 w) ]因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-7 19:10 , Processed in 0.059162 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表