图片词典制作详解--以tsiank的教程为例

阅读模式 · 发表于 2021-1-21 20:01:02

          最近“yunhailin123”将论坛的的各种教程总结起来分享，是一个很好的例子，但是过于繁杂了，一个初学者刚看到这个帖子估计会懵逼。其实t兄的帖子已经已经是很适合初学者的教程了，但是中间有一些内容过于简略，会有一些奇怪的错误导致词典制作失败或者有问题。我之前在论坛摸索了好久，又得到k兄的指点，现在索性以t兄的教程为原本写一个帖子把这些经验分享给大家，适合入门者使用。
首先声明，这个是图片词典的制作，而且配合原贴使用最佳，毕竟我只是做个注解。
原贴见https://www.pdawiki.com/forum/fo ... hread&tid=13451

         总来的来说，一共也只有两部分的数据需要处理：1.图片2.字头页码对照的表格。
第一步：图片的处理
         t兄原贴：“将电子书拆分为单页图片。现有的电子书格式一般有PDG,DJVU以及PDF，制作电子字典，一本书有好几种格式的话，首选PDG格式的。因为用这个格式转成的png图片，不仅清晰，而且尺寸刚好合适，可直接在苹果设备中使用（ios中mdict电子字典，其图片尺寸若超过2400*2400便无法显示）。”

         注：这个png格式并不是必须的，jpg等其他格式也是可以的。png图片的优势在于可以无损压缩，一般来说词典中有大量的图片，比如说古文字文字编中很多需要清晰无损的图片，就用png格式比较好，但是一般而言，png格式的图片比jpg要大很多，毕竟质量在那摆着。
         我的操作步骤：用acrobat打开pdf文件，点击左上角的“文件”-“另存为”-“jpg/png”图片。然后图片需要处理的，可以用“pngoo”、“comicEnhancer”等软件处理大小、颜色、纠斜等。
      t兄原贴：生成图像后，可以根据需要用文件批量改名工具修改一下文件名，也就是页码。比如我们把正文的页码（也就是以纯数字开头的文件）放在一起，图中的页码都是6位数的，将其改成4位数，并在文件名前加几个字母（这里加个WLG）以与其他字典的页码相区别。将附录和其他的页码放在一起，根据需要进行修改，比如也改成4位数并在前面加上WLGF几个字母，方法同上。
         注：“WLG”这三个字母是“王立古汉汉语词典”的“王力古”的缩写，是为了区分不同的词典。自己做的时候不要把所有的词典都命名成“WLGXXXX”，这样容易混乱。
         我的操作步骤：最简单省事的办法就是只留下正文，其他的目录啊后记的啥的都删掉，做成mdx是为了方便检索，那些东西不如直接看pdf。批量改名为前缀（书的大写字母）+四位数的页码。比如说《古文字类编》，前缀写作“GWZLB”+四位数页码。
         至此图片处理就完成了，简单来说就是acrobat打开pdf，另存为jpg/png图片，保留正文部分，批量改名前缀（书的大写字母）+四位数的页码。

下面我们进行第二步：
      t兄原贴：首先，在excel中根据字典正文的页码数输入一列页码数据，原字典是多少页，这里就输入多少个（王力古汉语字典正文页码到1817页）。然后将此列数据分别复制一份到B列和C列，在B1插入一个空单元格，数据与B2同。把C1删除，并在C列最后一行的单元格输入与上个单元格相同的数据。
      注：此处有一个bug。t兄给的示意图片只有上面的，没有下面的，很容易导致一个小错误，最后导致词典的第一页显示不出来。
         我的操作步骤：先看处理完的图片一共有几页，比如说一共有4页，我就把数据处理成这个样子：
         0001 0001 0002
         0002 0001 0003
         0003 0002 0004
         0004 0003 0004
         t兄原贴：将此三列数据复制到EmEditor中，点击搜索－替换选项，勾选使用正则表达式，在查找栏中输入“(.+?)\t(.+?)\t(.+?)$”，在替换栏中输入“WLG\1\n<img src="/WLG\1.png" width="1080px"><br><center> <a href="entry://WLG\2">上一页</a>   <a href="entry://WLG\3">下一页</a> \n</>”，然后点击替换全部。
         注：“WLG”是书的前缀缩写，如果你要做《古文字类编》，且刚才图片的名字已经改成“GWZLB+四位数页码”。先按照t兄的步骤把代码复制替换，然后把在Emeditor中把“WLG”替换为“GWZLB”；“width="1080px”可以考虑替换成“width="100%”，这样打开词典就会自动铺满窗口；如果用的是jpg图片，记得把代码中的“png”替换成“jpg”。
          t兄原贴：最后将这个文件以UTF-8的格式先保存。
         注：此处就不要保存了，直接在Emeditor中新建一个窗口来处理字头页码的数据，免得出现“UTF-8”保存错误的问题。

第三步：字头页码数据的处理
         t兄原贴：将字头与页码在excel中整理成如下所示：
         字头页码（此处见原图）
         将其复制到EmEditor中（首行不要），在查找栏中输入“(.+?)\t(.+?)$”，在替换栏中输入“\1\n@@@LINK=WLG\2\n</>”
         注：同样的，此处的“WLG”替换成你做的书的前缀+四位数页码。
          t兄原贴：将其结果复制到王力古汉语字典.txt中，注意与前面的内容不要有空行，点击保存。这样文本就处理完毕了。
         注：刚才我们并没有另存为，只是在新建的窗口处理的数据，将此数据全选粘贴到前面处理好的数据当中，注意不要有空行，并且另存为UTF-8的格式。此处注意，要保存为“UTF-8无签名”，不然容易出现第一页打不开的情况。这样文本处理完毕。

第四步，转换成mdic格式
      t兄原贴：打开MdxBuilder.exe，在source栏中输入刚才保存的文本所在路径及名字，在target栏中输入要生成的mdict格式的字典所在路径及名字，扩展名是.mdx，在data栏中输入第1 步制作的图片的所在位置。original format选择mdict(html)，encoding中选择UTF-8,title栏输入这本字典的名字。description栏是这本字典相关信息的描述，支持html标签，也可以不填。其他选项用默认的就行。然后点击start开始生成mdict字典。如果status栏最后出现successful 字样就说明制作成功了。
         注：“UTF-8”应为“UTF-8无签名”

         然后扔到相应的文件夹，goldendict，深蓝，欧路随便用起来。
         我是个典型的文科生，纯靠自己摸索学会了，现在论坛有这么多教程，想学真是很简单。祝大家都能学会词典的制作。

yunhailin123 · 发表于 2021-1-22 21:25:15

炊爱牛发表于 2021-1-22 12:54
* s2 V0 Q5 Q" W* z8 Q谢谢！真的是readfree的老马大神吗？

别无他人

yangdavid2 · 发表于 2021-1-22 04:30:04

多谢分享！

炊爱牛 · 发表于 2021-1-22 05:14:13

谢谢！切图的话还需要其他技术吧？

gudaochuanren · 发表于 2021-1-22 09:00:44

大佬，那一部词典这么多字头怎么提取出来，需要什么软件吗

wanghua2017 · 发表于 2021-1-22 09:13:23

认真看看，期待更多例程。谢谢！

匿名 *发表于 2021-1-22 09:40:07* · 发表于 2021-1-22 09:40:07

gudaochuanren 发表于 2021-1-22 09:005 z. ?0 ~- P1 _) L1 w0 i( s5 u
大佬，那一部词典这么多字头怎么提取出来，需要什么软件吗

1手動輸入
2ocr后校訂

匿名 *发表于 2021-1-22 09:47:20* · 发表于 2021-1-22 09:47:20

炊爱牛发表于 2021-1-22 05:14
/ B& k9 ~1 k' o( N" D6 e谢谢！切图的话还需要其他技术吧？

那個屬於進階技術了。
這裡只是對入門技術的注解。

ccz · 发表于 2021-1-22 10:59:57

写得很好，之前我学制作时就碰到你说的问题。

yunhailin123 · 发表于 2021-1-22 11:50:38

炊爱牛发表于 2021-1-22 05:14
! ]5 b4 c; {+ V% L谢谢！切图的话还需要其他技术吧？

链接：https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ

提取码：4hie
这里面有关于切图的所有讲解内容

炊爱牛 · 发表于 2021-1-22 12:54:59

yunhailin123 发表于 2021-1-22 11:50
% A. L/ X* {0 o! Y4 }2 A/ j0 m" [链接：https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ/ I9 a- h4 C: v* g/ |
% F& F: \! R! t) y* ^
提取码：4hie

谢谢！真的是readfree的老马大神吗？

gudaochuanren · 发表于 2021-1-22 17:12:24

另外还有一点，一个字头对应不同的页码会有影响吗

匿名 *发表于 2021-1-22 18:47:42* · 发表于 2021-1-22 18:47:42

gudaochuanren 发表于 2021-1-22 17:12
2 I* |* F4 e/ H. j, @* e, {6 B另外还有一点，一个字头对应不同的页码会有影响吗

田 0001
田 0002
你這麼輸入的話，做好之後用goldendict搜素“田”，會同時打開這兩頁

江湖侠客 · 发表于 2021-1-22 18:58:38

大佬能详细讲解一下用OCR处理词头索引吗？谢谢

匿名 *发表于 2021-1-22 21:30:46* · 发表于 2021-1-22 21:30:46

江湖侠客发表于 2021-1-22 18:58' o+ K; G, _& I8 R! Z
大佬能详细讲解一下用OCR处理词头索引吗？谢谢

acrobat把索引頁單獨截出來，abbyy ocr，校對。

starmars · 发表于 2021-1-26 00:53:43

您花这么多时间写，效果远远不如做一个视频讲解，哪怕是无声的，只要记录下操作，比文字说明强千百倍。

鸿韵佳律 · 发表于 2021-5-7 06:29:33

感谢楼主分享，我现在就是那个抓耳挠腮的小白，正到处找资料，十分感谢。

jianhekang2022 · 发表于 2022-5-18 23:04:04

感谢楼主分享！

dliaas · 发表于 2022-5-18 23:29:31

多谢多谢！

dtchiwei · 发表于 2022-6-17 11:47:57

匿名者发表于 2021-1-22 21:30
% B0 K* _$ l6 ~" Y+ Kacrobat把索引頁單獨截出來，abbyy ocr，校對。

有的字典没有索引页，那只能OCR识别后输入吗？

Tay · 发表于 2023-7-2 18:55:42

感谢楼主分享，小白前来学习。但是在第二步时使用emeditor查找替换时，不论是复制您的内容还是直接输入查找替换所需的表达式，弹出的结果都是无法找到，能向您请教这应该如何解决吗？

		自动登录	找回密码
密码			免费注册

[教程] 图片词典制作详解--以tsiank的教程为例

本帖被以下淘专辑推荐: