掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 13431|回复: 40

[教程] MDX 懒人切图版 朗氏德汉双解大词典

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2019-1-1 01:31:12 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2019-7-15 16:10 编辑 $ S& T3 b( ?: R9 X0 a; g/ n

    ; t1 ^, D- y- P- W8 i/ o" q6 N" _* j有点投机取巧的味道,所以加个“懒人”前缀,拿网上的 pdf 书签版抽取书签信息,每页 pdf 转成 png, 都可以编程批处理 。貌似凑合着可以用了。如果能获得词头和页码关系的信息(ocr或人工录入),要做成单词索引也非常简单。全本2263页,mdx版900+MB。
    1 R5 |4 J5 Z  ^/ u# r- M预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)  \9 {" j/ f' ^! J. N
    $ ~6 Y' x5 f2 E2 u: C5 X
    记录一下做法,其他人或许可以作为参考。所需工具:pdftk + imagemagick里的 convert, 假定pdf文件为 file.pdf
    8 k$ ?9 {, Y) S$ ?# i1 v
    • 抽取书签信息:pdftk file.pdf dump_data output file_info.txt! F( ]9 I7 j) W7 j: [4 D, G
      处理 file_info.txt 得到词头和页码的对应关系信息。
      " r9 k( i. p4 @没有书签信息的pdf就得ocr或手动录入。如果只是输入像pdf书签那样的信息倒也挺快的,因为只需做成aaa ba cx 1, dij e f 5这种形式再用程序处理一下就能得到生成mdict(html)所需的信息,1000页的书估计几个小时可以做完吧。
    • 分解 file.pdf:  pdftk file.pdf burst output p%04d.pdf
      6 V. j& V; N+ f7 s0 E4 P% f" O  g3 U得到 p0001.pdf, p0002.pdf ... p2236.pdf
    • ls p*.pdf | xargs -L1 -I {} convert -density 300 {} {}.png
      / Z3 }' @. z/ |) U6 z$ ^( y. q( j# e9 h或用脚本,核心是 convert -density 300 p0001.pdf p0001.pdf.png,基本就是将 p0001.pdf 转成 p0001.pdf.png。也试了其他转换程序(inkscape,pdftoimg),最后发现还是imagemagic的convert保真和文件大小的平衡最好。用的都是命令行,图形界面批处理重复时费事。转换还挺耗时的,每页需5到8秒,2000多页约需时4到6小时!
      & q6 Y- O  U) _( R$ a0 R7 _& k/ @& C
    2 b* e  F2 w, x
    然后就是生成 mdict(html) 格式的文件给 MdxBuilder用。
    % ?# x6 Z, ]* Q0 t
      c! S* E& P$ k% \; U可以在html码的最后(</>前面)加 9 j2 }0 q/ p% C! B* n+ I$ s
    1. <script>document.querySelector("img").onclick = function(){this.style.transform = 'scale(1.2)'}</script>
    复制代码
    点击 mdx 词典里的图片就可以放大1.2倍。也可以加个再点击还原的功能,以后再折腾。坛里的 js高人请赐码。顺便提一句,看到论坛里有人用jquery,其实很多时候都是没有必要的。
    ' v" }* t3 m( m2 w: V# [
    # ^$ f1 a$ j6 m2 ^& g4 E3 x0 C% \4 J加了前后翻页的按钮。也可以直接搜某页,z.B.,s88,如下图:
    / S% G9 e! k) n1 d, Z% M* ]! ]% f! H: q, D3 G# n0 h) s
    至于这东西有没有用,个人觉得如果你在用这个字典的 pdf 版,那不妨下了mdx版用一阵试试。pdf版600多M,mdx版900多M。mdx版应该还是比pdf版好用点。等我学多点 javascript 和 css 再加几个功能, e( I1 d; M7 j' W* t
    9 \0 u% |1 ^3 T. k2 }
    补充:如果原版是 djvu,则可以用 ddjvu直接从djvu转成 tiff,直接用到 mdict(html)送给 mdxbulder。转换速度很快,保真方面没有详细比较过,不太清楚。见下面的拉鲁斯法汉双解词典(全本)版,其中前1-64页是 pdf转 png,65页到最后是 djvu转tiff。
    5 l; |. l' [! n, C" ]4 u
    8 p8 A# ?. E' i" }' h9 ~! V9 G, t! m
    朗氏德汉双解大词典预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)5 l( j2 m0 H$ Z: z; J
    朗氏德汉双解大词典0.6.0版 全版 933M 链接: https://pan.baidu.com/s/1LQGW-4TkTWF_Vc5EmcMtMw 提取码: xq5n& c7 s* h0 z. G6 G) R0 J
    更新: 朗氏德汉双解大词典0.6.1版(附件langenscheidt_v0.6.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.6.0版的mdd文件前缀改成和0.6.1版一样就可以了。) a6 M( b0 ]% |0 W; t
    " p1 v; P; f. y
    更新(2019.1.20)朗氏德汉双解大词典0.7.0版:(langenscheidt_dahuangv0.7.0-updates-only.rar 不含mdd,可用 v0.6.1版的mdd)用了https://www.pdawiki.com/forum/fo ... etag=s_pctim_aiomsg的词头信息(鸣谢@Charlieqiu)做成了可直接查单词, 也可直接查页,页末加入翻页纽。本想整个三级放大,但明明在浏览器里可以用的js转 mdx后就不工作了,只好作罢。其实放大也没太大用,Mdict可直接鼠标滚动放大。

    % i. ?. h1 f$ K5 ]更新(2019.7.15)朗氏德汉双解大词典0.8.1版:修订索引错误,用了Bootstrap 4(移动优先——显示自动调节,手机版友好,但未用手机测试过),度盘链接: https://pan.baidu.com/s/18PEtXt53sLyKiBOTCXOBkg 提取码: uxw4 0 b& s) t% }# B$ j1 P; K
    3 T0 }' ]% x$ Y8 Q
    拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w
    # l; X8 [1 n  r$ J+ d* W拉鲁斯法汉双解词典v0.1.0(全本,65页以后用 ddjvu从djvu生成的 tif)链接: https://pan.baidu.com/s/1GUUz2T92JmAOQjBIab1OFw 提取码: riji
    ( w, }9 i( Z  v  D$ G更新: 拉鲁斯法汉双解词典v0.1.1版(拉鲁斯法汉双解词典v0.1.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.1.0版的mdd文件前缀改成和0.1.1版一样就可以了。
    2 ]5 W9 p7 O5 A' L
    0 H3 [! i( x! k0 X) y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    5

    查看全部评分

    本帖被以下淘专辑推荐:

    该用户从未签到

    发表于 2019-1-1 12:21:52 | 显示全部楼层
    [20181221完成][德语]朗氏德汉双解大词典 全索引切图版# k9 s, W; t4 H7 S; V6 `
    https://www.pdawiki.com/forum/fo ... hread&tid=32202( y$ ^' i8 G" z" y0 }1 D, m5 @/ B
    (出处: 掌上百科 - PDAWIKI)/ _; L8 ^. E. q: ^: {2 c
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-7-15 01:06:20 | 显示全部楼层
    独上高楼 发表于 2019-7-8 09:54
    # B9 G. y7 y( {  r9 j* q感谢楼主。本人用的是0.7.0,但是用了之后,4 L3 }# W" Z: W/ K1 N0 S# R
    【1】词典经常有查不到词的情形出现,是不是索引有缺失呀。
    - ?$ @* o* ]* t: O& z【 ...
    7 i) q7 i" M2 w# O- K" a6 t% u; C, Y
    有个0.8.0 版,修好了索引错误,我找时间整个百度下载。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-3 17:23:45 | 显示全部楼层
    xliley01 发表于 2019-1-3 13:49  l8 F/ V7 L: V3 f+ v* c4 e6 g
    等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用
    $ e, w% H# Q- O5 h5 U3 N+ [
    是的。任何附加信息都有用。比如朗氏德汉双解大词典隔7、8页有一个两三个字母词头(并不一定是单词)。拉鲁斯法汉双解词典现在是只有A、B... Z二十六个词头。追加词头的话,可以隔几页一个词头(可能找有些词时要翻几页), 可以每页一个词头(可以在找某些词时要前后翻一页),也可以列出一页里所有的词头(就可以直接搜词头了)。
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-1-1 20:52:39 | 显示全部楼层
    这是个很好的思路。我觉得可以把图片版分两个类,1、有大致索引,但索引不是完整的,起到在词典中分割的作用。就像这pdf的书签,是把词典内容人为分割成若干部分。但楼主这样转换,把人为规定的书签直接当成mdx中的词头,还是不利于查询。我之前制作的杜登德汉大词典也是差不多思路,把每页页首词作分割用,为了方便查询,mdx词头只能取其他词典的混合来用,也是权宜之计。2、有精确索引。获取精确的词头制作出整页版和切图版。耗时费力,但的确是一一对应的查询,很方便。
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:22:14 | 显示全部楼层
    chigre3 发表于 2019-1-1 12:21
    - I% Z0 D: b, U2 w4 b0 ], ]9 u1 R[20181221完成][德语]朗氏德汉双解大词典 全索引切图版1 L9 a! ?2 u$ _4 ?+ G
    https://www.pdawiki.com/forum/forum.php?mod=view ...

    ) e+ i# k+ d5 K% E谢谢分享
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:29:15 | 显示全部楼层
    功德无量的大好事。谢谢您的付出。

    该用户从未签到

    发表于 2019-1-1 22:07:13 | 显示全部楼层
    对于没有全索引的  我就制作页末单词索引  在电脑端Goldendict加载python代码查询定位到页  随便几千页的词典都能很快完成  
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:14 | 显示全部楼层
    楼主厉害!感谢分享!7 t5 L0 X$ d% @5 ]6 w" s3 ^. M
    : ]/ b7 D+ H* Z, s6 v1 C1 H
    祝楼主新年快乐,万事如意!
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:20 | 显示全部楼层
    楼主厉害!感谢分享!% w7 |; |' k" Y

    ' {2 k  G4 m) B祝楼主新年快乐,万事如意!
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 07:45:30 | 显示全部楼层
    很好。帮我们弄个法汉的吧。谢谢。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 10:08:26 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 10:11 编辑 0 ?2 [8 E# x/ V% S
    xliley01 发表于 2019-1-2 07:45
    $ t+ V5 y5 P" P( n) R很好。帮我们弄个法汉的吧。谢谢。

    1 o* e2 g# S% b/ u; ?你提供资料(pdf文件百度盘链接或无需注册可以下载的链接)的话我可以试试…… 都是些脚本,运行起来也不太费事。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:19:15 | 显示全部楼层
    链接: https://pan.baidu.com/s/1Qze2p2oL0fe8FZpWRlTb8g 提取码: stut 复制这段内容后打开百度网盘手机App,操作更方便哦
    # t4 P8 }) F' n$ q" {, U% u
    0 W& Z0 `. u3 g* E有4个法汉的pdf。其中法汉和新世纪法汉比较清楚,新法汉和拉鲁斯比较模糊,最想要的还是拉鲁斯。看看能不能搞定,谢谢。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:27:01 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 12:28 编辑 4 Q  K- F* m0 q+ m
    * o* {# K* V1 ^" C0 _
    还需要什么的话,请告诉我。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 14:44:47 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 14:58 编辑
    - Z: R# W! M" ]- G" Z
    xliley01 发表于 2019-1-2 12:27+ }" S5 {1 p- H- O
    还需要什么的话,请告诉我。

    0 C1 w1 h' `/ k- }: A做好了60页的拉鲁斯法汉双解词典测试版。pdf转png需时特别长,不知道什么原因。一般一页7、8秒,可这本书的pdf每页需一分钟!你看看能不能用,可以用的话,我再转余下的2000多页!我搜了一下论坛,拉鲁斯好像已经有切图版?& N. k# s2 V9 W% g

    6 S( q7 {( j0 c拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 19:14:56 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 19:21 编辑 + e" `* X" N1 E3 V7 B, f2 M6 F
    9 q3 h6 y  z) h3 w' `1 e* Y
    有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码:t4u9
    2 g+ S/ J+ b8 q复制这段内容后打开百度网盘手机App,操作更方便哦8 A; h' w$ F  C& r$ K
    试过了,看过翻页蛮方便的,就是具体单词怎么查?# M" Y& ~& u" D! G; u
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 21:00:45 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 21:14 编辑 + q6 H+ I. Z5 x0 `* X' |- [% z
    xliley01 发表于 2019-1-2 19:14$ W( q+ M+ K) P2 y
    有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码: ...
    这个懒人切图版是查不了单词,书签里没单词信息。但可以查页,例如 p88。不过你可以提供下列格式的信息:
    # d  N( u6 \# ~1 @3 }abc abz 1230 n% B$ Z- r" _8 g1 V
    ...
    ; u& X, o6 p2 W0 H/ ^zab aac 2220
    , f7 V4 o0 s+ _2 W' C我就可以生成对应的查单词版。用其他方法生成词头信息就不是一个中午可以做得出来的了。至少目前不行,等人工智能再发展20年的样子或许可以. o. k( l" y! e% Q  N0 M
    ' K7 L+ ~8 u# k8 g9 q
    你说的djvu是和 pdf 一样的吗?因为 pdf 版里含 A, B, …… Z 的书签,这些已经整合到 mdx 字典里。如果djvu是和 pdf 不一样,就会有问题。
    . A- W5 i2 T1 _( E- |
    6 J- z  D+ [3 z5 g* [, k) l另外也不知道djvu转png质量如何,如果失真太大也就不能用。不如你提供 png 文件给我?其实你已经可以自己用 MdxExport (https://www.pdawiki.com/forum/fo ... highlight=mdxexport)导出 拉鲁斯法汉双解词典测试版(60页)的mdx和mdd, 然后自己将缺的 png 拷到 对应的目录里,再用 MDXBuilder 重新生成 mdx、mdd就可以了。* p$ z2 y6 S" s4 C
    4 h8 P5 f4 K6 M: h! D
    你如果觉得测试版这个样子可以用,就请告诉我一声,我慢慢用我的方法生成 png 文件好了。如果觉得不能用,就暂时放弃了,等等人工智能。
    3 E. {6 a1 ~3 h+ a
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:03:35 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 22:22 编辑 4 j" L4 ]0 d5 ^, g# \
    * k- T0 a2 p; L* W
    @xliley01
    ) M$ X" Q8 I2 r/ A' Uhttps://sourceforge.net/projects/djvu/ 的 ddjvu从djvu生成tiff, 文件倒是很小,也很快。
    ; ^$ D$ _& f/ A( x9 d7 J" x3 K$ l" T
    链接: https://pan.baidu.com/s/1KY4QHPHn1IlHADbShcVpNg 提取码: mpdx
    3 M5 n3 }$ r0 d8 s/ J  W3 o) _# S- H' ?! O! R+ Y; m  e8 `
    1-64页,pdf到png, 65-100页是 tiff。你看看有没有区别。要是凑合可用,我就生成一个全版了。
    1 C/ _: v# O. b9 d; @* }$ N全本版做好了,见一楼末尾……。
    * _' j! V0 @- t- M( @( @

    该用户从未签到

    发表于 2019-1-2 22:05:12 | 显示全部楼层
    这样子的叫做整页版 - -  
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:25:33 | 显示全部楼层
    chigre3 发表于 2019-1-2 22:05; Z3 X5 c1 G9 \3 T& |8 k2 J
    这样子的叫做整页版 - -
    ! ]' ]7 W; g' V- w- B
    是的,比整页版还次一等——整页版还可以含每页详细词头信息…… 所以叫懒人版,就是完全不想动手。其实懒人版也可以做成含每页词头的详细信息,前提是有人不那么懒。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-3 13:49:14 | 显示全部楼层
    等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-20 20:36:24 | 显示全部楼层
    能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-21 00:08:28 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-21 00:09 编辑
    ; p& V% Q& l' m
    潇潇天 发表于 2019-1-20 20:36/ M( D' ?# r3 K3 m! c" W
    能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费

    / t+ K; b( o8 k你如果能提供词头信息,如:7 ~/ q7 y" M: a" R7 i9 h. H, U
    A 1
    9 @# A, E1 Y# B) |% k  A( M1 ~+ o1 La- 13 S) a0 O1 J! J2 w
    Aa 1
    0 j: ?  K5 W) Q6 ~' y& hAal 1
    4 U  A, F6 F# t6 o+ }# kaalen 1$ P/ @' ^6 k3 _4 t2 w
    aalglatt 1+ h, f1 q! @/ P( K2 u5 q$ B
    ……% @' G' m% v* f, [

    5 M% k* r* c6 T& u5 i! U5 E以及 pdf 文件,我可以试着免费给你做一个,并不是太费事,都是些脚本。词头信息也可以是非常简单,譬如每页的第一个词。如没有词头信息的话,则只能做成按页码搜索的字典。参考一楼的法汉词典。
    0 o3 `4 J4 z7 ~7 o# L
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-21 12:59:49 来自手机 | 显示全部楼层
    mikeee 发表于 2019-1-21 00:08
    & @9 o' f3 q8 c, q& i' r你如果能提供词头信息,如:
    8 ^7 _& X" \+ s8 s  u/ {A 1
    4 k& ?+ |9 t1 j0 _6 Q  T4 s! fa- 1* w; p) `3 Y- `+ o
    ' O4 K& S! _8 B* ?
    发了私信。是可以在gd中使用的吗
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:21:57 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:53 编辑
    3 t3 W+ f! O+ [5 m% R" c5 [7 G$ b# p/ c/ S0 b) X( R6 e
    感谢楼主分享!非常感谢!
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:22:10 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:54 编辑 : m& J9 `9 Y2 C6 c
    ! I# d* {4 M1 f: v- h: p" T9 L
    感谢楼主。已经下载,在使用之中了。
    " q2 I  _2 d  x) A. Z1 d$ _7 a$ c4 E
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-16 08:16 , Processed in 0.117905 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表