最近学习制作图片词典,想制作张柏然版新牛津全索引词典
本帖最后由 jonah_w 于 2023-10-10 12:12 编辑学习的VimVim的图片制作工具,强烈推荐
需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…
就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。
感兴趣的可以留言或者私信我哈。 6个人参与即可。
p.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。
OCR了一页看看效果,感觉还不错:
没太懂你,按说张柏然版的是大学版,例句比新牛津少。
我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行
klwo2 发表于 2023-10-12 18:11
没太懂你,按说张柏然版的是大学版,例句比新牛津少。
我用的某个调用API的OCR工具,是混合调用的,一天50 ...
考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典 klwo2 发表于 2023-10-12 18:11
没太懂你,按说张柏然版的是大学版,例句比新牛津少。
我用的某个调用API的OCR工具,是混合调用的,一天50 ...
某个调用API的OCR工具,是混合调用的,一天500条
不知道是哪个工具? jonah_w 发表于 2023-10-15 09:35
考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。 jonah_w 发表于 2023-10-15 09:35
考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
我用的https://ocr.oldfish.cn/
不过这是我随便选的
其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》{:4_96:}{:4_96:}{:4_96:}
jonah_w 发表于 2023-10-15 09:35
考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——
(1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;
(2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;
(3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查
(4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm klwo2 发表于 2023-10-19 14:29
例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
我用的https://ocr.oldfish.cn/
https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。
反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人 klwo2 发表于 2023-10-19 14:29
例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
我用的https://ocr.oldfish.cn/
确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用 jonah_w 发表于 2023-10-19 15:08
https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...
【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
张柏然版新牛津,跟新牛津的释义绝大部分相同啊
至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点 本帖最后由 jonah_w 于 2023-10-19 16:00 编辑
klwo2 发表于 2023-10-19 15:26
【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。
或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典
或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)
不过,最后这种场景也非常适合用chatgpt klwo2 发表于 2023-10-19 15:26
【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
张柏然版新牛津,跟新牛津的释义绝大部分相同啊
那可能确实没必要了… 后面看看吧 {:4_94:} klwo2 发表于 2023-10-19 15:26
【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
按理说,它是调用多个api,会比单个api稳定一点
他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。
偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…) jonah_w 发表于 2023-10-19 15:58
比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...
(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。
Google也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。
有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。
(2)语法问题不宜零敲碎打解决。
(3)这种用thesaurus就可以解决的
用chatgpt当然可以,不过准确性就需要验证了 klwo2 发表于 2023-10-19 16:36
(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...
因为输入任何单词组合,Google好像都有结果… {:4_94:} 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控
当然Google肯定可以当那个last resort
嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。
是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it. jonah_w 发表于 2023-10-19 17:52
因为输入任何单词组合,Google好像都有结果…有时候可能不好判断,地道与否。对词典语料来说, ...
当然不是输入任何单词组合,Google都有结果
想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。
最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。
此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有) klwo2 发表于 2023-10-19 20:44
当然不是输入任何单词组合,Google都有结果
想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件
有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些 klwo2 发表于 2023-10-19 20:44
当然不是输入任何单词组合,Google都有结果
想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上 jonah_w 发表于 2023-10-19 23:21
是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上
google也是“国内多数人用不上”啊
klwo2 发表于 2023-10-20 01:03
google也是“国内多数人用不上”啊
哈哈哈… 确实
页:
[1]