掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 817|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑 1 |) d2 a, O$ @2 L% W% ~

    ; V5 X- J& Z& u7 T学习的VimVim的图片制作工具,强烈推荐
    " |$ }/ e1 P6 K) _% P% B: F" g% g( z$ [5 G- ~: b
    需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…
    ' g+ H# J" [5 p1 Y# F8 n$ g( X1 X, B
    & }0 v. H" a9 o# v就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。
    # @  S4 u7 n3 @  C
    5 V2 r% Y+ n4 Z  |( p- h感兴趣的可以留言或者私信我哈。 6个人参与即可。
    2 g! A" m4 f/ K/ o/ _' a; v- ?
    % e( c" b* v/ o1 W! ip.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。
    " Q/ D" [$ Z% N. o: B" L  c1 x: h% h
    OCR了一页看看效果,感觉还不错:( q. O& A# M$ b) X1 `# ?
    ; k* _: b$ v0 u* O$ |7 Y- j; u7 R

    ' Y+ J5 w" L/ i( B! U
    : M5 a! S: e3 ?' k
    7 t: u2 B  m0 D( J. v

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。% Z" c/ v) q- D  P8 x! K  }
    . z# \4 o* e1 q! q* X0 y2 F  W  I
    我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行% \- a7 ^3 p& V% q% n- m2 R
    ! q0 U: I4 S; A6 ?+ N7 p
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    2 D4 a' T/ g' b没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    8 n3 K* N2 R, h' a/ \" ~! a+ J0 a; B6 q$ j
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    2 y5 r( F* L3 Y, l+ T1 K7 L- B
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    3 _/ R% e; Y# X  b没太懂你,按说张柏然版的是大学版,例句比新牛津少。) H4 G( t( B* p9 J& r( U' t

    0 y% `, s. t! D4 V我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条

    2 Z1 E" ?, {+ D/ W+ J6 H# O! h0 ^: h
    不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35! s. P9 L3 X0 M; K# B: j9 h) c
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    . o  X, t, P, w$ X
    柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    , L# e% E) E5 w9 \" e. ~, [8 ~考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    ( e5 a+ [7 Q* h7 s' W4 l
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句- c# E) y  i- d- ~. T! i9 [
    1 ?" i3 e' Q0 \% C$ |0 i2 z
    我用的https://ocr.oldfish.cn// P7 k, M0 N& c. |+ U

    & A0 s1 @- i( u$ i/ K9 Z不过这是我随便选的8 S) E/ i; T- _* |4 \# k( b

    $ r- S7 y* F5 T/ e) E" \3 p6 c( g其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》
    , e6 g( @8 M! {7 Y$ {

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    0 J4 P/ U( w4 i; K/ r8 v0 o* T  \考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    & ^1 I8 X2 _. x' G5 B0 T* g/ z3 q. `再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——
    4 I+ G7 n8 G6 }: g& N
      Z, s2 u* X# G7 l2 N7 n(1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;
    0 E) W, k& ]- e- p1 p% g# O8 e( @(2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;
    : j3 p5 b) b. J" s, V(3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查; V4 K: a( H  k3 C' k: h0 b& R
    (4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    & E  B) t# M/ ^# h5 R7 f例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    , X% Q0 `! g( u$ g0 R; C" G& n
    2 T8 H% R3 G3 Q7 s- v  Y我用的https://ocr.oldfish.cn/
    $ c7 _6 t! @" G$ a" c# `
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。
    ( T; R- B; [1 W% T; q  R$ ?' g  |4 r
    反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    5 G9 C6 }0 p+ k例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句5 D# G$ X4 q- \8 G

    3 t6 n  C; I4 x; W我用的https://ocr.oldfish.cn/
    * M: r8 R5 A; D9 a
    确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08# g3 c, a4 ^1 F6 S+ y
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...
    7 R, X5 o  Z. F0 r) U
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    * S( Z, a+ ~7 `. z& K) v5 x. }7 V" m' O+ w6 m3 g  D
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊" m$ w9 U% a# {; J( Q

    4 }2 O3 y$ T  m" e至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑
    ) ]  Q: @# X$ t* z8 y
    klwo2 发表于 2023-10-19 15:265 H% G6 H. r* o) B
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    + j# ^9 V) \  m7 v
    ) J9 W0 b& P  l0 ?9 g3 ~! f
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。/ q! D1 I; q6 O  V6 b' L4 @9 `

    ; ]2 B/ a, B# j$ l或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典1 s, A5 ~5 V3 P- t

    $ [. a  E) b6 I4 |0 v7 B4 n或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)
    & O# ~& K: H- s2 e7 V6 x2 s% @1 o0 y) ^- n# V, ?- c4 n
    不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26' ]4 s) z. C! o. I) z5 ]0 M
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊

    1 B9 t0 d  o+ A, Z1 f7 P) K! s; z" [; a" q2 k- y( G
    那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26) L' a2 {" s; b3 v% A; e7 w; I$ w5 @
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点
    ! k# j  W, C; N+ l' q$ ]! j' n
    9 X7 P1 |) I7 k& J
    他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。! B; l9 T; V7 a0 z- y! |) j
    百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。
    $ {$ h+ c  x% Y/ v: p7 `- H8 M3 b1 E: h$ O% c2 S6 H, M& @
    偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58$ l* P* @. u% ~6 ?
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...
    2 f( m2 x, E$ S$ t: i& B: I  ?5 w
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。$ C: \0 r) i5 e( [; \2 W% w+ b

    " V& F2 ^3 Q$ q2 H2 U4 {Google也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。
    9 c- N; e; n; [2 V
    1 l- [* n6 M$ S, S  k7 O有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。
    8 i6 c  b1 C8 t7 e  O
    & z% q/ i: v  o(2)语法问题不宜零敲碎打解决。! {# `9 [* |0 b5 k
    (3)这种用thesaurus就可以解决的
    3 ]( H. L! @8 |7 F/ e' g% O1 R/ [0 ^) ?
    用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:36
    ; e! c" O  ^' e% D# {(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...
    ; `8 e& h9 ^& A0 ?
    因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控) V6 }2 L- }! @- f6 c5 k% d

    4 P: M3 I- y$ q( ?/ n. a, l" _当然Google肯定可以当那个last resort# c2 n7 r8 e- }0 D! D

    + i& m  X, O$ h8 ?! v) x. n嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。
    . O% s6 X9 [* }5 s1 J% v8 u& k( l$ g; p
    是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52
    7 m- I6 L6 k6 S( l+ l" A- _5 ~, y% ]因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...
    . o. _; M0 P2 u8 f
    当然不是输入任何单词组合,Google都有结果0 m6 U: w4 f; c. c

    ' K  `* t5 l# I% Z( B7 j' Y想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。
    5 m3 M  \) c: @+ v/ i7 M; w
    ' z- _- x" o: H; X最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。7 n8 A6 P- F; u/ Z3 D! C% e

    : M0 T1 @5 v' @$ w0 ^8 u6 ~此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    % R' W! J* I8 ]1 [3 d, t当然不是输入任何单词组合,Google都有结果( K7 v( L) R  @7 s/ |0 P  `

    9 X* R; ]6 T# p想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件
    8 S6 Z; }7 B* E: \9 t& o- x# J
    " ^4 B) I* Q: c7 W, [0 M2 L0 H* L7 f
    有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    % u, D. G: F  t$ C当然不是输入任何单词组合,Google都有结果
    % l0 s2 A8 T6 u% E0 n( J# a8 c# p7 C( n1 a% u+ L
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

      U+ o1 E3 \4 }' K& J. R是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21
    * t- ~, X0 g% r/ n3 I是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    . S$ ~4 V) k' ~% Mgoogle也是“国内多数人用不上”啊" l* C: _; a' w' u% f& v
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03  j- ?% x8 ~6 y, C3 s1 e* X
    google也是“国内多数人用不上”啊
    6 x, ^0 Z* z& r0 ]$ I1 m
    哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-5 07:20 , Processed in 0.054625 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表