jonah_w 发表于 2023-10-10 12:07:21

最近学习制作图片词典,想制作张柏然版新牛津全索引词典

本帖最后由 jonah_w 于 2023-10-10 12:12 编辑

学习的VimVim的图片制作工具,强烈推荐

需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…

就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。

感兴趣的可以留言或者私信我哈。 6个人参与即可。

p.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。

OCR了一页看看效果,感觉还不错:




klwo2 发表于 2023-10-12 18:11:02

没太懂你,按说张柏然版的是大学版,例句比新牛津少。

我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行

jonah_w 发表于 2023-10-15 09:35:44

klwo2 发表于 2023-10-12 18:11
没太懂你,按说张柏然版的是大学版,例句比新牛津少。

我用的某个调用API的OCR工具,是混合调用的,一天50 ...

考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

jonah_w 发表于 2023-10-15 09:37:05

klwo2 发表于 2023-10-12 18:11
没太懂你,按说张柏然版的是大学版,例句比新牛津少。

我用的某个调用API的OCR工具,是混合调用的,一天50 ...

某个调用API的OCR工具,是混合调用的,一天500条

不知道是哪个工具?

shiruxue 发表于 2023-10-16 00:46:36

jonah_w 发表于 2023-10-15 09:35
考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

klwo2 发表于 2023-10-19 14:29:47

jonah_w 发表于 2023-10-15 09:35
考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句

我用的https://ocr.oldfish.cn/

不过这是我随便选的

其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》{:4_96:}{:4_96:}{:4_96:}

klwo2 发表于 2023-10-19 15:00:54

jonah_w 发表于 2023-10-15 09:35
考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——

(1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;
(2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;
(3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查
(4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm

jonah_w 发表于 2023-10-19 15:08:54

klwo2 发表于 2023-10-19 14:29
例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句

我用的https://ocr.oldfish.cn/


https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。

反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人

jonah_w 发表于 2023-10-19 15:11:39

klwo2 发表于 2023-10-19 14:29
例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句

我用的https://ocr.oldfish.cn/


确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

klwo2 发表于 2023-10-19 15:26:03

jonah_w 发表于 2023-10-19 15:08
https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...

【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?

张柏然版新牛津,跟新牛津的释义绝大部分相同啊

至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点

jonah_w 发表于 2023-10-19 15:58:19

本帖最后由 jonah_w 于 2023-10-19 16:00 编辑

klwo2 发表于 2023-10-19 15:26
【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...

比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。

或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典

或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)

不过,最后这种场景也非常适合用chatgpt

jonah_w 发表于 2023-10-19 16:01:40

klwo2 发表于 2023-10-19 15:26
【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...

张柏然版新牛津,跟新牛津的释义绝大部分相同啊

那可能确实没必要了… 后面看看吧 {:4_94:}

jonah_w 发表于 2023-10-19 16:06:12

klwo2 发表于 2023-10-19 15:26
【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...

按理说,它是调用多个api,会比单个api稳定一点

他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。

偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

klwo2 发表于 2023-10-19 16:36:50

jonah_w 发表于 2023-10-19 15:58
比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...

(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。

Google也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。

有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。

(2)语法问题不宜零敲碎打解决。
(3)这种用thesaurus就可以解决的

用chatgpt当然可以,不过准确性就需要验证了

jonah_w 发表于 2023-10-19 17:52:51

klwo2 发表于 2023-10-19 16:36
(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...

因为输入任何单词组合,Google好像都有结果… {:4_94:} 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控

当然Google肯定可以当那个last resort

嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。

是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

klwo2 发表于 2023-10-19 20:44:33

jonah_w 发表于 2023-10-19 17:52
因为输入任何单词组合,Google好像都有结果…有时候可能不好判断,地道与否。对词典语料来说, ...

当然不是输入任何单词组合,Google都有结果

想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。

最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。

此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)

jonah_w 发表于 2023-10-19 23:17:59

klwo2 发表于 2023-10-19 20:44
当然不是输入任何单词组合,Google都有结果

想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件

有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些

jonah_w 发表于 2023-10-19 23:21:14

klwo2 发表于 2023-10-19 20:44
当然不是输入任何单词组合,Google都有结果

想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

klwo2 发表于 2023-10-20 01:03:49

jonah_w 发表于 2023-10-19 23:21
是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

google也是“国内多数人用不上”啊

jonah_w 发表于 2023-10-20 09:26:10

klwo2 发表于 2023-10-20 01:03
google也是“国内多数人用不上”啊

哈哈哈… 确实
页: [1]
查看完整版本: 最近学习制作图片词典,想制作张柏然版新牛津全索引词典