掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 13662|回复: 40

[教程] MDX 懒人切图版 朗氏德汉双解大词典

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2019-1-1 01:31:12 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2019-7-15 16:10 编辑 - S" K9 q# w  L. i# U
    ; L" b0 ~/ V, y* v  Z1 N  s5 `9 V
    有点投机取巧的味道,所以加个“懒人”前缀,拿网上的 pdf 书签版抽取书签信息,每页 pdf 转成 png, 都可以编程批处理 。貌似凑合着可以用了。如果能获得词头和页码关系的信息(ocr或人工录入),要做成单词索引也非常简单。全本2263页,mdx版900+MB。
    5 J  x# N2 m9 _5 m" W4 n7 I. e( k预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)9 M3 ?9 H8 n4 L  U

    " q0 t4 A- g( G" J记录一下做法,其他人或许可以作为参考。所需工具:pdftk + imagemagick里的 convert, 假定pdf文件为 file.pdf7 C1 N& ]* H9 v8 k- X+ [6 o& X0 f
    • 抽取书签信息:pdftk file.pdf dump_data output file_info.txt2 W9 Z9 b9 m1 B! x4 N+ X6 g$ f$ X
      处理 file_info.txt 得到词头和页码的对应关系信息。
      & r7 d" I7 b6 \8 H没有书签信息的pdf就得ocr或手动录入。如果只是输入像pdf书签那样的信息倒也挺快的,因为只需做成aaa ba cx 1, dij e f 5这种形式再用程序处理一下就能得到生成mdict(html)所需的信息,1000页的书估计几个小时可以做完吧。
    • 分解 file.pdf:  pdftk file.pdf burst output p%04d.pdf
      # t5 V. U+ G' e0 a6 h5 k$ O# P得到 p0001.pdf, p0002.pdf ... p2236.pdf
    • ls p*.pdf | xargs -L1 -I {} convert -density 300 {} {}.png" Q9 t9 k9 {- u  k: }# R/ L
      或用脚本,核心是 convert -density 300 p0001.pdf p0001.pdf.png,基本就是将 p0001.pdf 转成 p0001.pdf.png。也试了其他转换程序(inkscape,pdftoimg),最后发现还是imagemagic的convert保真和文件大小的平衡最好。用的都是命令行,图形界面批处理重复时费事。转换还挺耗时的,每页需5到8秒,2000多页约需时4到6小时!0 @5 T5 Z, d* _: R+ _& ~4 Q
    8 A8 |! c7 R: h
    然后就是生成 mdict(html) 格式的文件给 MdxBuilder用。, A" @! _$ Y& F, E0 w

    ! S5 |) @2 E& Q2 p3 q% S可以在html码的最后(</>前面)加
    , w+ U2 S1 o" d: [' S
    1. <script>document.querySelector("img").onclick = function(){this.style.transform = 'scale(1.2)'}</script>
    复制代码
    点击 mdx 词典里的图片就可以放大1.2倍。也可以加个再点击还原的功能,以后再折腾。坛里的 js高人请赐码。顺便提一句,看到论坛里有人用jquery,其实很多时候都是没有必要的。" W& V" r6 A4 }7 K9 _' Y& w; Z

    ( l# J1 l3 o( f加了前后翻页的按钮。也可以直接搜某页,z.B.,s88,如下图:
    / B' h) [9 Y' @% V' M% C& O! I" d3 C' Q0 n. x9 d
    至于这东西有没有用,个人觉得如果你在用这个字典的 pdf 版,那不妨下了mdx版用一阵试试。pdf版600多M,mdx版900多M。mdx版应该还是比pdf版好用点。等我学多点 javascript 和 css 再加几个功能- A  n* E; S! ^1 P' o, Z
    + @! o% @, f& ?; o
    补充:如果原版是 djvu,则可以用 ddjvu直接从djvu转成 tiff,直接用到 mdict(html)送给 mdxbulder。转换速度很快,保真方面没有详细比较过,不太清楚。见下面的拉鲁斯法汉双解词典(全本)版,其中前1-64页是 pdf转 png,65页到最后是 djvu转tiff。
    + f5 A0 ]1 }4 s0 W/ b8 I4 J& H/ I- _! \5 p4 C
    ! a1 D0 b, N& t' \
    朗氏德汉双解大词典预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)6 t' P8 W: p  V! [7 i
    朗氏德汉双解大词典0.6.0版 全版 933M 链接: https://pan.baidu.com/s/1LQGW-4TkTWF_Vc5EmcMtMw 提取码: xq5n
      x' O, ~+ [) I! i更新: 朗氏德汉双解大词典0.6.1版(附件langenscheidt_v0.6.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.6.0版的mdd文件前缀改成和0.6.1版一样就可以了。
    2 E5 i- o3 r* o# G- l- ~3 U- A- O1 C7 x) S! {* [1 o4 ?* _3 J# F
    更新(2019.1.20)朗氏德汉双解大词典0.7.0版:(langenscheidt_dahuangv0.7.0-updates-only.rar 不含mdd,可用 v0.6.1版的mdd)用了https://www.pdawiki.com/forum/fo ... etag=s_pctim_aiomsg的词头信息(鸣谢@Charlieqiu)做成了可直接查单词, 也可直接查页,页末加入翻页纽。本想整个三级放大,但明明在浏览器里可以用的js转 mdx后就不工作了,只好作罢。其实放大也没太大用,Mdict可直接鼠标滚动放大。

    5 [$ d1 z( ~" I- h8 Y* t+ ^) t更新(2019.7.15)朗氏德汉双解大词典0.8.1版:修订索引错误,用了Bootstrap 4(移动优先——显示自动调节,手机版友好,但未用手机测试过),度盘链接: https://pan.baidu.com/s/18PEtXt53sLyKiBOTCXOBkg 提取码: uxw4
    - e; }1 O- f' C* T- F5 f! ^: P9 j5 h' `6 \
    拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w- H, f2 ~! z- q3 t: `) ~
    拉鲁斯法汉双解词典v0.1.0(全本,65页以后用 ddjvu从djvu生成的 tif)链接: https://pan.baidu.com/s/1GUUz2T92JmAOQjBIab1OFw 提取码: riji
    " s/ {- ?, e6 r. s0 V" P更新: 拉鲁斯法汉双解词典v0.1.1版(拉鲁斯法汉双解词典v0.1.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.1.0版的mdd文件前缀改成和0.1.1版一样就可以了。
    2 B% X$ _, G, G) K
    5 a8 C& d& {. Z* L0 w" V1 g! g

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    5

    查看全部评分

    本帖被以下淘专辑推荐:

    该用户从未签到

    发表于 2019-1-1 12:21:52 | 显示全部楼层
    [20181221完成][德语]朗氏德汉双解大词典 全索引切图版: b( G5 V- m( N
    https://www.pdawiki.com/forum/fo ... hread&tid=32202! c& `' K/ u% s, F/ T# A
    (出处: 掌上百科 - PDAWIKI)8 w2 q* P$ ^' x6 m) R5 v* _9 e+ u2 n
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-7-15 01:06:20 | 显示全部楼层
    独上高楼 发表于 2019-7-8 09:54* G7 Q, z0 }5 y! {
    感谢楼主。本人用的是0.7.0,但是用了之后,
    # U+ m0 n( ~3 r6 c! w% @8 u【1】词典经常有查不到词的情形出现,是不是索引有缺失呀。6 s8 B, h" [, {: F6 E; L* R% {
    【 ...

    $ J2 m/ {1 V- S! g4 ?1 a6 ~( ~有个0.8.0 版,修好了索引错误,我找时间整个百度下载。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-3 17:23:45 | 显示全部楼层
    xliley01 发表于 2019-1-3 13:49$ f( A% @. c0 G0 K* x
    等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用

    ) c5 E8 G& f9 @  b# ?是的。任何附加信息都有用。比如朗氏德汉双解大词典隔7、8页有一个两三个字母词头(并不一定是单词)。拉鲁斯法汉双解词典现在是只有A、B... Z二十六个词头。追加词头的话,可以隔几页一个词头(可能找有些词时要翻几页), 可以每页一个词头(可以在找某些词时要前后翻一页),也可以列出一页里所有的词头(就可以直接搜词头了)。
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-1-1 20:52:39 | 显示全部楼层
    这是个很好的思路。我觉得可以把图片版分两个类,1、有大致索引,但索引不是完整的,起到在词典中分割的作用。就像这pdf的书签,是把词典内容人为分割成若干部分。但楼主这样转换,把人为规定的书签直接当成mdx中的词头,还是不利于查询。我之前制作的杜登德汉大词典也是差不多思路,把每页页首词作分割用,为了方便查询,mdx词头只能取其他词典的混合来用,也是权宜之计。2、有精确索引。获取精确的词头制作出整页版和切图版。耗时费力,但的确是一一对应的查询,很方便。
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:22:14 | 显示全部楼层
    chigre3 发表于 2019-1-1 12:21+ ]" h3 O8 I7 |" J
    [20181221完成][德语]朗氏德汉双解大词典 全索引切图版4 M# \3 j% H+ t
    https://www.pdawiki.com/forum/forum.php?mod=view ...
    ! y; {, A: k! l. o  l
    谢谢分享
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:29:15 | 显示全部楼层
    功德无量的大好事。谢谢您的付出。

    该用户从未签到

    发表于 2019-1-1 22:07:13 | 显示全部楼层
    对于没有全索引的  我就制作页末单词索引  在电脑端Goldendict加载python代码查询定位到页  随便几千页的词典都能很快完成  
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:14 | 显示全部楼层
    楼主厉害!感谢分享!
    & t. d2 J( t  T0 l9 ~# L' F5 N! d: z$ w, w: h
    祝楼主新年快乐,万事如意!
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:20 | 显示全部楼层
    楼主厉害!感谢分享!2 G5 ^; P+ j0 u

    $ ~+ Q  D; a' Q; [& Q6 c* f. ^祝楼主新年快乐,万事如意!
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 07:45:30 | 显示全部楼层
    很好。帮我们弄个法汉的吧。谢谢。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 10:08:26 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 10:11 编辑 0 ~9 E; j2 R4 B. p$ N7 J. k
    xliley01 发表于 2019-1-2 07:45( v1 @6 e! g  v# a
    很好。帮我们弄个法汉的吧。谢谢。
    3 p9 p1 M4 b4 n  T  D5 k; y
    你提供资料(pdf文件百度盘链接或无需注册可以下载的链接)的话我可以试试…… 都是些脚本,运行起来也不太费事。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:19:15 | 显示全部楼层
    链接: https://pan.baidu.com/s/1Qze2p2oL0fe8FZpWRlTb8g 提取码: stut 复制这段内容后打开百度网盘手机App,操作更方便哦
    4 _, M% `* M7 Y, l
    : R0 [% s* D* ]9 |/ }. T& {3 A" K有4个法汉的pdf。其中法汉和新世纪法汉比较清楚,新法汉和拉鲁斯比较模糊,最想要的还是拉鲁斯。看看能不能搞定,谢谢。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:27:01 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 12:28 编辑
    " J$ l: S$ ]! C$ [- _* ~3 [( z; n0 ~$ ^* x
    还需要什么的话,请告诉我。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 14:44:47 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 14:58 编辑
    8 s( q- M" R% x2 |/ R/ Q+ G
    xliley01 发表于 2019-1-2 12:27
    0 h, `4 i+ @3 D) @& |还需要什么的话,请告诉我。
    ( O  N) {9 q5 t
    做好了60页的拉鲁斯法汉双解词典测试版。pdf转png需时特别长,不知道什么原因。一般一页7、8秒,可这本书的pdf每页需一分钟!你看看能不能用,可以用的话,我再转余下的2000多页!我搜了一下论坛,拉鲁斯好像已经有切图版?  r3 u5 K* c( S, p: G( `
    ( Q! a. F) A3 i7 \' H3 m% E, J
    拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 19:14:56 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 19:21 编辑 6 V% R1 w$ G2 I. C+ A
    5 J; a) O5 I+ ?$ ~' ~
    有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码:t4u9
    * f7 \% s1 r. h  Y1 W复制这段内容后打开百度网盘手机App,操作更方便哦/ W, i: R0 I5 {+ S4 o
    试过了,看过翻页蛮方便的,就是具体单词怎么查?
    5 c( C- k4 C/ \& @% C
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 21:00:45 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 21:14 编辑
    % b! n+ s  Z+ L
    xliley01 发表于 2019-1-2 19:14$ q7 d$ h" q( L# f
    有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码: ...
    这个懒人切图版是查不了单词,书签里没单词信息。但可以查页,例如 p88。不过你可以提供下列格式的信息:8 B) F; P% w% Y
    abc abz 123$ R* R3 K7 Q3 `7 W
    ..." X+ _, p7 e: B$ V" Q
    zab aac 2220
    # C! i6 M6 H) O( o% E% U我就可以生成对应的查单词版。用其他方法生成词头信息就不是一个中午可以做得出来的了。至少目前不行,等人工智能再发展20年的样子或许可以- q! t  |- K* g  e- L% z
    4 {( `; e+ p0 \3 l7 i, E1 e
    你说的djvu是和 pdf 一样的吗?因为 pdf 版里含 A, B, …… Z 的书签,这些已经整合到 mdx 字典里。如果djvu是和 pdf 不一样,就会有问题。3 u8 g* j" T' W5 P; L# r1 W
    & x8 G8 Q! I9 _- @' {
    另外也不知道djvu转png质量如何,如果失真太大也就不能用。不如你提供 png 文件给我?其实你已经可以自己用 MdxExport (https://www.pdawiki.com/forum/fo ... highlight=mdxexport)导出 拉鲁斯法汉双解词典测试版(60页)的mdx和mdd, 然后自己将缺的 png 拷到 对应的目录里,再用 MDXBuilder 重新生成 mdx、mdd就可以了。
    + D4 [& k6 B9 J- |2 G9 m: n, m/ s5 z& N/ W6 t- e
    你如果觉得测试版这个样子可以用,就请告诉我一声,我慢慢用我的方法生成 png 文件好了。如果觉得不能用,就暂时放弃了,等等人工智能。) y( M: Z- D6 r, G( z1 f; o
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:03:35 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 22:22 编辑
    7 D" z3 Y' h* |9 x
    6 o: I+ D* ~# ~% j@xliley01
    1 R1 x9 Q, J) I8 d9 R2 r# J7 Z# phttps://sourceforge.net/projects/djvu/ 的 ddjvu从djvu生成tiff, 文件倒是很小,也很快。% Z& L- x$ s+ C9 z3 _2 E

    9 _/ [8 y4 _8 x1 m6 p  U& T/ C链接: https://pan.baidu.com/s/1KY4QHPHn1IlHADbShcVpNg 提取码: mpdx
    0 W; N0 L/ V: L# n. R
    7 d8 l* y1 }- M( B7 I5 `+ l1-64页,pdf到png, 65-100页是 tiff。你看看有没有区别。要是凑合可用,我就生成一个全版了。
    ; y( P$ l( y; s8 ~全本版做好了,见一楼末尾……。
    ' d- M% Y) Z! K6 r" e

    该用户从未签到

    发表于 2019-1-2 22:05:12 | 显示全部楼层
    这样子的叫做整页版 - -  
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:25:33 | 显示全部楼层
    chigre3 发表于 2019-1-2 22:05% q" {( R3 J& y. `* l* z
    这样子的叫做整页版 - -

    ! T2 s0 E2 J( F' {+ }& W" A是的,比整页版还次一等——整页版还可以含每页详细词头信息…… 所以叫懒人版,就是完全不想动手。其实懒人版也可以做成含每页词头的详细信息,前提是有人不那么懒。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-3 13:49:14 | 显示全部楼层
    等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-20 20:36:24 | 显示全部楼层
    能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-21 00:08:28 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-21 00:09 编辑
    * ]6 a+ g8 |& f! z1 ^1 \+ F
    潇潇天 发表于 2019-1-20 20:36
    % `2 |& Q' F; y0 d# J8 y# K& A能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费
    $ Z" Q- i; {8 \) V7 {$ U3 b
    你如果能提供词头信息,如:! U; R' d+ M. B! D6 A
    A 16 w& c0 F1 N# v7 c' {' x. t/ d+ r2 ^8 G
    a- 1* M. d, @! P) U! E4 U
    Aa 11 b$ z, G' U4 C8 z5 U' w" n
    Aal 1
    ) h: E  l: h& C3 saalen 1
    ( C4 s! S" P' O+ qaalglatt 13 r! ^- N/ Z! Z! i: {
    ……7 H6 Q! a; w$ n7 ?
    # Z8 q2 b8 G( ^8 I
    以及 pdf 文件,我可以试着免费给你做一个,并不是太费事,都是些脚本。词头信息也可以是非常简单,譬如每页的第一个词。如没有词头信息的话,则只能做成按页码搜索的字典。参考一楼的法汉词典。2 @8 S; g( Y; l8 I$ K/ {5 t' N
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-21 12:59:49 来自手机 | 显示全部楼层
    mikeee 发表于 2019-1-21 00:08# [8 ~( v5 I) @! F
    你如果能提供词头信息,如:
    ! B6 L+ q8 h( R! I% g( rA 1
    6 K9 A7 J# q! H6 h% E6 t: J! ha- 1
    : f% ~1 J1 a2 @

    ) ^1 n& u4 q/ j0 K- q8 p/ V% w' I发了私信。是可以在gd中使用的吗
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:21:57 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:53 编辑 6 A7 w* F" |/ Z: e% a
    - i: y- b0 h9 G: }8 Q* O9 [
    感谢楼主分享!非常感谢!
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:22:10 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:54 编辑 7 D+ t) _- z0 ?, e

    " ]! ~  ?2 g* @, W: u7 C0 ~: c: [/ R感谢楼主。已经下载,在使用之中了。) @! Q" j8 x( P! R
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-11 15:32 , Processed in 0.134280 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表