TA的每日心情 | 开心 2019-8-21 08:44 |
---|
签到天数: 163 天 [LV.7]常住居民III
|
本帖最后由 mikeee 于 2019-7-15 16:10 编辑 $ S& T3 b( ?: R9 X0 a; g/ n
; t1 ^, D- y- P- W8 i/ o" q6 N" _* j有点投机取巧的味道,所以加个“懒人”前缀,拿网上的 pdf 书签版抽取书签信息,每页 pdf 转成 png, 都可以编程批处理 。貌似凑合着可以用了。如果能获得词头和页码关系的信息(ocr或人工录入),要做成单词索引也非常简单。全本2263页,mdx版900+MB。
1 R5 |4 J5 Z ^/ u# r- M预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮) \9 {" j/ f' ^! J. N
$ ~6 Y' x5 f2 E2 u: C5 X
记录一下做法,其他人或许可以作为参考。所需工具:pdftk + imagemagick里的 convert, 假定pdf文件为 file.pdf
8 k$ ?9 {, Y) S$ ?# i1 v- 抽取书签信息:pdftk file.pdf dump_data output file_info.txt! F( ]9 I7 j) W7 j: [4 D, G
处理 file_info.txt 得到词头和页码的对应关系信息。
" r9 k( i. p4 @没有书签信息的pdf就得ocr或手动录入。如果只是输入像pdf书签那样的信息倒也挺快的,因为只需做成aaa ba cx 1, dij e f 5这种形式再用程序处理一下就能得到生成mdict(html)所需的信息,1000页的书估计几个小时可以做完吧。 - 分解 file.pdf: pdftk file.pdf burst output p%04d.pdf
6 V. j& V; N+ f7 s0 E4 P% f" O g3 U得到 p0001.pdf, p0002.pdf ... p2236.pdf - ls p*.pdf | xargs -L1 -I {} convert -density 300 {} {}.png
/ Z3 }' @. z/ |) U6 z$ ^( y. q( j# e9 h或用脚本,核心是 convert -density 300 p0001.pdf p0001.pdf.png,基本就是将 p0001.pdf 转成 p0001.pdf.png。也试了其他转换程序(inkscape,pdftoimg),最后发现还是imagemagic的convert保真和文件大小的平衡最好。用的都是命令行,图形界面批处理重复时费事。转换还挺耗时的,每页需5到8秒,2000多页约需时4到6小时!
& q6 Y- O U) _( R$ a0 R7 _& k/ @& C 2 b* e F2 w, x
然后就是生成 mdict(html) 格式的文件给 MdxBuilder用。
% ?# x6 Z, ]* Q0 t
c! S* E& P$ k% \; U可以在html码的最后(</>前面)加 9 j2 }0 q/ p% C! B* n+ I$ s
- <script>document.querySelector("img").onclick = function(){this.style.transform = 'scale(1.2)'}</script>
复制代码 点击 mdx 词典里的图片就可以放大1.2倍。也可以加个再点击还原的功能,以后再折腾。坛里的 js高人请赐码。顺便提一句,看到论坛里有人用jquery,其实很多时候都是没有必要的。
' v" }* t3 m( m2 w: V# [
# ^$ f1 a$ j6 m2 ^& g4 E3 x0 C% \4 J加了前后翻页的按钮。也可以直接搜某页,z.B.,s88,如下图:
/ S% G9 e! k) n1 d, Z% M* ]! ]% f! H: q, D3 G# n0 h) s
至于这东西有没有用,个人觉得如果你在用这个字典的 pdf 版,那不妨下了mdx版用一阵试试。pdf版600多M,mdx版900多M。mdx版应该还是比pdf版好用点。等我学多点 javascript 和 css 再加几个功能。, e( I1 d; M7 j' W* t
9 \0 u% |1 ^3 T. k2 }
补充:如果原版是 djvu,则可以用 ddjvu直接从djvu转成 tiff,直接用到 mdict(html)送给 mdxbulder。转换速度很快,保真方面没有详细比较过,不太清楚。见下面的拉鲁斯法汉双解词典(全本)版,其中前1-64页是 pdf转 png,65页到最后是 djvu转tiff。
5 l; |. l' [! n, C" ]4 u
8 p8 A# ?. E' i" }' h9 ~! V9 G, t! m
朗氏德汉双解大词典预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)5 l( j2 m0 H$ Z: z; J
朗氏德汉双解大词典0.6.0版 全版 933M 链接: https://pan.baidu.com/s/1LQGW-4TkTWF_Vc5EmcMtMw 提取码: xq5n& c7 s* h0 z. G6 G) R0 J
更新: 朗氏德汉双解大词典0.6.1版(附件langenscheidt_v0.6.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.6.0版的mdd文件前缀改成和0.6.1版一样就可以了。) a6 M( b0 ]% |0 W; t
" p1 v; P; f. y
更新(2019.1.20)朗氏德汉双解大词典0.7.0版:(langenscheidt_dahuangv0.7.0-updates-only.rar 不含mdd,可用 v0.6.1版的mdd)用了https://www.pdawiki.com/forum/fo ... etag=s_pctim_aiomsg的词头信息(鸣谢@Charlieqiu)做成了可直接查单词, 也可直接查页,页末加入翻页纽。本想整个三级放大,但明明在浏览器里可以用的js转 mdx后就不工作了,只好作罢。其实放大也没太大用,Mdict可直接鼠标滚动放大。
% i. ?. h1 f$ K5 ]更新(2019.7.15)朗氏德汉双解大词典0.8.1版:修订索引错误,用了Bootstrap 4(移动优先——显示自动调节,手机版友好,但未用手机测试过),度盘链接: https://pan.baidu.com/s/18PEtXt53sLyKiBOTCXOBkg 提取码: uxw4 0 b& s) t% }# B$ j1 P; K
3 T0 }' ]% x$ Y8 Q
拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A qk5w
# l; X8 [1 n r$ J+ d* W拉鲁斯法汉双解词典v0.1.0(全本,65页以后用 ddjvu从djvu生成的 tif)链接: https://pan.baidu.com/s/1GUUz2T92JmAOQjBIab1OFw 提取码: riji
( w, }9 i( Z v D$ G更新: 拉鲁斯法汉双解词典v0.1.1版(拉鲁斯法汉双解词典v0.1.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.1.0版的mdd文件前缀改成和0.1.1版一样就可以了。2 ]5 W9 p7 O5 A' L
0 H3 [! i( x! k0 X) y
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
5
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 图片词典制作|主题: 41, 订阅: 7
- · 小众|主题: 22, 订阅: 4
|