Mandolin 发表于 2020-3-21 19:42:26

【白话教程】[图像版]①图片切边、分栏和优化

本帖最后由 Mandolin 于 2020-4-4 14:03 编辑



若加载或排版有问题也可以参见博客:【电子辞典】自制 Mdict(图像版)之图片裁剪、分栏和优化

(另见:【白话教程】[图像版]②mdx 文件制作)

前言

自己制作、改版图像版词典也有不少时间了,这么些个时间也积累了一点自己制作图像版词典的经验,看到有坛友需要,就此分享,和大家一起交流提高,希望能促进坛内产出更多有用、高质的辞典。

其实制作词典不难,我本身就是从小白的状态过来的,从对Mdict一无所知到能初步地制作自己需要的词典,文本版的、图像版的都有制作过,当然还是以图像版的为主,毕竟许多高质和较新的辞典还是只有图像资源。而这一切只需要从动手开始,运用合适的工具和研习前人留下的经验,很快你就能制作出一个像样的词典。使用自己亲手制作的辞典和从网上下载的辞典体验是不一样的,自己做的辞典每每使用都巴不得多翻几下子,就像自己的私有财产样,没有谁比你更了解它了。

关于图像版辞典,相对文本版制作起来简单许多,其实是小白制作Mdict辞典的最佳入门之选。图像辞典制作的核心不外乎就是词头提取和图片处理,词头提取目前的方法很固定,也就是OCR识别和校对,比较机械也比较累,但很重要,不过这里不谈,本文只谈图像的处理。本文同样适合小白阅读,我也最喜欢写小白文章了。

在此之前,说下个人图片处理的原则。图片处理微观上就是对像素点进行调整,由于我们制作的辞典一般是白纸黑字的辞典,所以实质上就是处理这些黑色像素点,它们是信息的唯一载体,处理中丢失了是不可逆的。因此我都是尽量保持无损操作(文件上一般用 png 或无损的 tif),虽然占硬盘,但不失真,到一切都处理完了,最后再根据需要进行体积上的优化。所以处理中每一步我都会很小心,哪怕是从最初的PDF导出为PNG,都要无损导出,PDF导出可以用Acrobat的功能,能最大保证原图:

https://img.litles.site/images/2020/03/21/Acrobatde8c637948701d5b.png

对辞典的图片处理的需求主要就是两点⸺裁剪和优化,一般先裁剪后优化。在图片处理的摸索过程中,试过许许多多的图像处理软件,有PS、IrfanView、Scan Tailor、ComicEnhancerPro、A-PDF PageCut等等,还有一些其它各种各样的小玩意儿,最终大浪淘沙,主要使用的也就是上面列举的IrfanView、Scan Tailor、ComicEnhancerPro这三个图片处理工具,已经够常见的处理了,再需要一些奇怪的操作,就偶尔请笨重的PS出山。下面就分别从这两个方面进行个人处理方式的介绍:

一、图片的裁剪
对于切边和分栏这两个处理,如果图片比较统一、规则的话通过 Scan Tailor 可以一步到位;但如果不行的话(一般是因为不能一次完美切边),那就可能就需要交叉进行,以保证最好的处理结果。对于双栏的图片,要制成单栏,我一般的处理流程大致是:
①将整页进行切边
②进行分栏
③(可能需要)将得到的分栏再进行切边

下面就切边和分栏依次进行介绍:

(一)裁剪边界(即切边)
对于图片的切边,对软件要求的核心功能其实就是能准确地自动框选到正文内容,然后剔除框外的部分就好了。因此单对于自动切边这个功能,ComicEnhancerPro 和 ScanTailor 都可以做到,效果都不错,并且 ComicEnhancerPro 会相对稍强些,IrfanView 虽也有个「自动裁剪边框」功能但较弱。个人常用 ScanTailor,一般切边的同时都会进行纠斜的。ScanTailor 软件的处理逻辑比较特别,每次处理它都会跑满所有的 6 个步骤(你要手动点击运行最后两个选项Margins和Output),所以你如果只想使用它其中的个别功能就要注意设置好其它的功能选项,以避免造成干扰;另外,Scan Tailor 处理是以 tif 文件处理的,所以处理其它文件需要一个转换过程,比如 png⸺tif 的转换,所以会慢些。仅仅是纠斜+切边+加白边的话,下面是我的设置(按照操作就行了):

https://img.litles.site/images/2020/03/21/scantailor_MIShRyQPL617c5a1bff5a8e00d.png

①Fix Orientation项,不动,默认

②Spilt Pages项
https://img.litles.site/images/2020/03/21/scantailor_7SaoCDrn8Ce812c55403081e09.png

③Deskew项
https://img.litles.site/images/2020/03/21/scantailor_JQlYue87hK6b68bb861e9977b6.png

④Select Content项,不动默认(如果你动了并设置自动、应用到全部可能会导致部分页面的正文被切到了)

⑤Margins项,设置完点击相应的黑色播放按钮运行
https://img.litles.site/images/2020/03/26/i_view64_WsyK3DPu3p245fef7954bcd1d5.png

⑥OutPut项,设置完点击相应的黑色播放按钮运行
https://img.litles.site/images/2020/03/21/scantailor_5j1D7no4Ctb0b9a89cd83459c7.png

运行完成后就可以在out文件夹中看到结果。注意:Output时最好就选择 Color/GrayScale ,不要选择 Black/White ,它的二值化不太行,损失较多,有需要的话可以完成后去IrfanView/ComicEnhancerPro进行二值处理。下面是处理结果:

https://img.litles.site/images/2020/03/21/i_view64_DybyKOiZXk95d77ac125b532f6.png

疑难一
如果发现 Scan Tailor 内容框选识别还不够准确的话,可以试试 ComicEnhancerPro 看识别会不会好点(看图中绿框),它有更细致的参数设置(导航到:显隐参数栏⸺切边⸺设置):

https://img.litles.site/images/2020/03/21/ComicEnhancerPro_GgndemIf9H1a7fee9ebaa5a1cb.png

疑难二
还有,如果一次没有切干净或有特殊情况,怎么办,就像这样,顶上还有一部分/一条线:

https://img.litles.site/images/2020/03/21/i_view64_gBDv0baAc0f2efd9e0868fb235.png

把两边和底部加白边,顶部不加边,再去 Scan Tailor 看看能不能处理。如果仍行不通的话,那可以先用 IrfanView 将顶部的一部分切掉(只要破坏顶部文字的完整性就行)。在 IrfanView 中,先比量要切割的像素高度,再去批量处理即即可:

https://img.litles.site/images/2020/03/27/i_view64_GlwUihDA0Aed1cd9575001b06c.png

https://img.litles.site/images/2020/03/27/i_view64_AXaqEse0kW6b6809d7b2fa8b6e.png


之后Scan Tailor 应该就能准确框选到正文了(实际原理就是把顶部当边缘给越过)

https://img.litles.site/images/2020/03/27/scantailor_kO4OF7Sjkm0b6691237fde08c8.png


(二)分栏

在完成了切边后再进行分栏会更好些。分栏的话,个人觉得还是 Scan Tailor 好用,能自动找到分割线(而不是机械地找1/2位置),如图:

https://img.litles.site/images/2020/03/21/scantailor_Kxyy0Wllv77bbde7d8d3f53ee8.png

https://img.litles.site/images/2020/03/21/scantailor_RI8P2tENEj27465950f31b7641.png

具体的完整流程就不写了,参照切边的相应修改就行了(注意Spilt Pages项中点击Change后的框中是选Manual)。如果有些书籍比较怪,或扫描得不是很好有干扰,导致 Scan Tailor 不能自动找到分割线怎么办,当然首先应该切边,将周边的干扰去掉。准备得好的话,Scan Tailor 可以分栏一步到位:

https://img.litles.site/images/2020/03/27/i_view64_xyA5Mp98Bj7163c89e7ae602f1.png

二、图片的优化

待图片裁剪工作完成之后,就可以进行最后一步优化处理。优化其实很简单,我个人一般使用IrfanView这一个软件就够了。这里说一下,为了不失真,一般就在无损的灰度图片下进行优化就好,虽然黑色2值化能极大地减小体积,但或多或少会损失一点黑色像素。一般对DPI比较高的汉语、英语辞典,可以直接粗暴的进行黑白2值化处理,既减少体积又不会看不清;但如果对于本身DPI不高,文字又精密的辞典如一些含公式的理工类辞典,少一点像素可能某个公式的字母可能就不清楚了,因此自己视情况定夺,对2值化或灰度优化二选一。下面就 IrfanView 相应的两个操作分别进行介绍:

(一)黑白2值化处理

可以直接进行批量处理,依次导航到:文件⸺批量转换/重命名⸺高级,然后勾选色深部分就行

https://img.litles.site/images/2020/03/21/i_view64_H7hk09TT6u5d8819082312b7d7.png


(二)灰度图片优化
图片优化目的就是提升视觉效果。为什么要优化,看看下面的对比就知道了:

https://img.litles.site/images/2020/03/21/i_view64_yCD9u8wviR18ec6eed8e429477.png

优化灰度图片一般调整对比度、Gamma值这两个就够了,可以先对单张图片调试找到最佳效果的值(选项在:图像⸺色彩增强),然后再进行批处理。找到最佳效果的对比度和Gamma值后可以去批处理,如图:

https://img.litles.site/images/2020/03/27/i_view64_JFG1UQmUsEfd388603e32581cd.png

三、最后

上面写了一些主要的操作和个人经验,篇幅有限,很多问题或技巧未能详尽,仅供参考,最终操作还是要结合自己实际情况来进行相应的调整。辞典的制作最大的追求就是自动化处理,能自动化的就自动化,能批处理的就批处理,能不手动尽量不手动,除非没办法,所以工具还是很关键的,不过目前针对一些不统一、不标准的扫描图像还是有需要有手动处理的部分,因此,如有朋友有更好的工具望不吝推荐。
















































sagelzh 发表于 2020-4-23 01:16:51

内容居然藏在目录中,高手啊,处处有技术

喬治兄 发表于 2020-3-21 22:50:11

本帖最后由 喬治兄 于 2020-3-21 22:59 编辑

Mandolin 发表于 2020-3-21 20:42
不客气,相对制作一部辞典,写一篇教程还是简单的,说不定能因此给论坛添加几部辞典,我也可以从中伸手获 ...

Mandolin 兄:
小弟之前做了幾本圖片式的辭典.....也都沒切邊隨便匹配一下, 圖也沒什處理
查了幾次就沒再用過....
後來覺得問題在於圖片不夠清晰外加看到那個字母索引也很不舒服......
自己也掃過一兩本書但沒拆書的掃, 捨不得拆書, 雖透過 掃描儀所附的軟件去拉平曲面...依然拉不平...
最近買了幾本二手書因年代久遠頁面快像樹葉般的凋落, 連拆都得小心翼翼的去拆
突然感悟書也是有生命的限制
與其擺書櫃涼著變斑黃, 被書蟲啃食, 不如拆開掃一掃
哪怕是變成 PDF 或作成索引書籍都比擺書櫃強
作成 PDF 或索引書籍都不一定會常去翻閱了更何況擺在書櫃裡....更是機會渺茫
再次感謝 Mandolin 兄傳授切鞭大法...
{:4_105:}

cocowind 发表于 2020-4-4 17:44:27

本帖最后由 cocowind 于 2020-4-4 18:06 编辑

sxingbai 发表于 2020-4-4 07:01
没有做过图像版。分栏版切图尚可理解,词条版觉得不可想象,如何实现自动化切割?即使手动切割也会遇到一个 ...
谢谢楼主分享。

词条版必须手工逐页切,用上工具可以每页:逐个词条划线,一次性切图。还是很累人的。
20181130更新_自动画线+OCR+切图+校对 软件
https://www.pdawiki.com/forum/thread-19040-1-1.html?x=180507

BAT2018 发表于 2020-3-21 20:01:29

这个教程分享真不错,点赞点赞!

lwx228 发表于 2020-3-21 20:16:17

每次回帖、谢谢!辛苦了。

喬治兄 发表于 2020-3-21 20:21:29

本帖最后由 喬治兄 于 2020-3-21 20:47 编辑

Mandolin 兄:
此教程寫的太好了
手把手的步驟講解......太讚了...
漂亮啦, 深入淺出....
完美的..切鞭大法...
感恩...謝謝您....
{:4_104:}

Mandolin 发表于 2020-3-21 20:42:34

喬治兄 发表于 2020-3-21 20:21
Mandolin 兄:
此教程寫的太好了
手把手的步驟講解......太讚了...


不客气,相对制作一部辞典,写一篇教程还是简单的,说不定能因此给论坛添加几部辞典,我也可以从中伸手获益{:4_97:}

yq19890115 发表于 2020-3-21 23:14:45

感谢分享,写的很细致

dengaihua 发表于 2020-3-22 07:33:01

感谢分享!对于小白,希望能出更多完整一系列的教程。

999阿彌陀佛 发表于 2020-3-22 08:05:23

真不錯的教程!

rororay 发表于 2020-3-22 09:57:30

很棒的教程!
IrfanView一直用,但一直没用过这类批处理,学习了~

MUIYUCHIT 发表于 2020-3-22 11:28:19

寫的十分詳細,非常感謝這麼好的詞典製造教程,謝謝!

sxingbai 发表于 2020-4-4 07:01:17

没有做过图像版。分栏版切图尚可理解,词条版觉得不可想象,如何实现自动化切割?即使手动切割也会遇到一个词条在不同页面或不同栏的情况呀。困惑中

Mandolin 发表于 2020-4-4 08:28:42

sxingbai 发表于 2020-4-4 07:01
没有做过图像版。分栏版切图尚可理解,词条版觉得不可想象,如何实现自动化切割?即使手动切割也会遇到一个 ...

这里没有介绍词条版,本人也不会

sxingbai 发表于 2020-4-4 18:54:51

本帖最后由 sxingbai 于 2020-4-4 18:59 编辑

回复没反应,多点了几次,麻烦版主删了

sxingbai 发表于 2020-4-4 18:55:04

cocowind 发表于 2020-4-4 17:44
谢谢楼主分享。

词条版必须手工逐页切,用上工具可以每页:逐个词条划线,一次性切图。还是很累人的。


多谢,原来c大的帖子在这儿

sxingbai 发表于 2020-4-4 18:55:34

cocowind 发表于 2020-4-4 17:44
谢谢楼主分享。

词条版必须手工逐页切,用上工具可以每页:逐个词条划线,一次性切图。还是很累人的。


多谢,原来c大的帖子在这儿

lbhl 发表于 2020-4-4 23:52:50

内容不全啊?是要回复才能看到?

sxingbai 发表于 2020-4-5 07:43:37

lbhl 发表于 2020-4-4 23:52
内容不全啊?是要回复才能看到?

看啥点啥

michaellee1010 发表于 2020-4-27 07:23:48

好贴,顶起来

starsp 发表于 2020-5-17 17:29:36

太棒啦,期待更多教程

xianht123 发表于 2020-6-26 22:14:22

这个教程分享真不错,点赞点赞!

xianht123 发表于 2020-6-26 22:20:15

这个教程分享真不错,点赞点赞!

palitui 发表于 2020-11-26 04:56:01

谢谢,分享您的心得。
页: [1] 2
查看完整版本: 【白话教程】[图像版]①图片切边、分栏和优化