TA的每日心情 | 开心 2019-8-21 08:44 |
---|
签到天数: 163 天 [LV.7]常住居民III
|
本帖最后由 mikeee 于 2019-7-15 16:10 编辑 - S" K9 q# w L. i# U
; L" b0 ~/ V, y* v Z1 N s5 `9 V
有点投机取巧的味道,所以加个“懒人”前缀,拿网上的 pdf 书签版抽取书签信息,每页 pdf 转成 png, 都可以编程批处理 。貌似凑合着可以用了。如果能获得词头和页码关系的信息(ocr或人工录入),要做成单词索引也非常简单。全本2263页,mdx版900+MB。
5 J x# N2 m9 _5 m" W4 n7 I. e( k预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)9 M3 ?9 H8 n4 L U
" q0 t4 A- g( G" J记录一下做法,其他人或许可以作为参考。所需工具:pdftk + imagemagick里的 convert, 假定pdf文件为 file.pdf7 C1 N& ]* H9 v8 k- X+ [6 o& X0 f
- 抽取书签信息:pdftk file.pdf dump_data output file_info.txt2 W9 Z9 b9 m1 B! x4 N+ X6 g$ f$ X
处理 file_info.txt 得到词头和页码的对应关系信息。
& r7 d" I7 b6 \8 H没有书签信息的pdf就得ocr或手动录入。如果只是输入像pdf书签那样的信息倒也挺快的,因为只需做成aaa ba cx 1, dij e f 5这种形式再用程序处理一下就能得到生成mdict(html)所需的信息,1000页的书估计几个小时可以做完吧。 - 分解 file.pdf: pdftk file.pdf burst output p%04d.pdf
# t5 V. U+ G' e0 a6 h5 k$ O# P得到 p0001.pdf, p0002.pdf ... p2236.pdf - ls p*.pdf | xargs -L1 -I {} convert -density 300 {} {}.png" Q9 t9 k9 {- u k: }# R/ L
或用脚本,核心是 convert -density 300 p0001.pdf p0001.pdf.png,基本就是将 p0001.pdf 转成 p0001.pdf.png。也试了其他转换程序(inkscape,pdftoimg),最后发现还是imagemagic的convert保真和文件大小的平衡最好。用的都是命令行,图形界面批处理重复时费事。转换还挺耗时的,每页需5到8秒,2000多页约需时4到6小时!0 @5 T5 Z, d* _: R+ _& ~4 Q
8 A8 |! c7 R: h
然后就是生成 mdict(html) 格式的文件给 MdxBuilder用。, A" @! _$ Y& F, E0 w
! S5 |) @2 E& Q2 p3 q% S可以在html码的最后(</>前面)加
, w+ U2 S1 o" d: [' S- <script>document.querySelector("img").onclick = function(){this.style.transform = 'scale(1.2)'}</script>
复制代码 点击 mdx 词典里的图片就可以放大1.2倍。也可以加个再点击还原的功能,以后再折腾。坛里的 js高人请赐码。顺便提一句,看到论坛里有人用jquery,其实很多时候都是没有必要的。" W& V" r6 A4 }7 K9 _' Y& w; Z
( l# J1 l3 o( f加了前后翻页的按钮。也可以直接搜某页,z.B.,s88,如下图:
/ B' h) [9 Y' @% V' M% C& O! I" d3 C' Q0 n. x9 d
至于这东西有没有用,个人觉得如果你在用这个字典的 pdf 版,那不妨下了mdx版用一阵试试。pdf版600多M,mdx版900多M。mdx版应该还是比pdf版好用点。等我学多点 javascript 和 css 再加几个功能。- A n* E; S! ^1 P' o, Z
+ @! o% @, f& ?; o
补充:如果原版是 djvu,则可以用 ddjvu直接从djvu转成 tiff,直接用到 mdict(html)送给 mdxbulder。转换速度很快,保真方面没有详细比较过,不太清楚。见下面的拉鲁斯法汉双解词典(全本)版,其中前1-64页是 pdf转 png,65页到最后是 djvu转tiff。
+ f5 A0 ]1 }4 s0 W/ b8 I4 J& H/ I- _! \5 p4 C
! a1 D0 b, N& t' \
朗氏德汉双解大词典预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)6 t' P8 W: p V! [7 i
朗氏德汉双解大词典0.6.0版 全版 933M 链接: https://pan.baidu.com/s/1LQGW-4TkTWF_Vc5EmcMtMw 提取码: xq5n
x' O, ~+ [) I! i更新: 朗氏德汉双解大词典0.6.1版(附件langenscheidt_v0.6.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.6.0版的mdd文件前缀改成和0.6.1版一样就可以了。
2 E5 i- o3 r* o# G- l- ~3 U- A- O1 C7 x) S! {* [1 o4 ?* _3 J# F
更新(2019.1.20)朗氏德汉双解大词典0.7.0版:(langenscheidt_dahuangv0.7.0-updates-only.rar 不含mdd,可用 v0.6.1版的mdd)用了https://www.pdawiki.com/forum/fo ... etag=s_pctim_aiomsg的词头信息(鸣谢@Charlieqiu)做成了可直接查单词, 也可直接查页,页末加入翻页纽。本想整个三级放大,但明明在浏览器里可以用的js转 mdx后就不工作了,只好作罢。其实放大也没太大用,Mdict可直接鼠标滚动放大。
5 [$ d1 z( ~" I- h8 Y* t+ ^) t更新(2019.7.15)朗氏德汉双解大词典0.8.1版:修订索引错误,用了Bootstrap 4(移动优先——显示自动调节,手机版友好,但未用手机测试过),度盘链接: https://pan.baidu.com/s/18PEtXt53sLyKiBOTCXOBkg 提取码: uxw4
- e; }1 O- f' C* T- F5 f! ^: P9 j5 h' `6 \
拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A qk5w- H, f2 ~! z- q3 t: `) ~
拉鲁斯法汉双解词典v0.1.0(全本,65页以后用 ddjvu从djvu生成的 tif)链接: https://pan.baidu.com/s/1GUUz2T92JmAOQjBIab1OFw 提取码: riji
" s/ {- ?, e6 r. s0 V" P更新: 拉鲁斯法汉双解词典v0.1.1版(拉鲁斯法汉双解词典v0.1.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.1.0版的mdd文件前缀改成和0.1.1版一样就可以了。2 B% X$ _, G, G) K
5 a8 C& d& {. Z* L0 w" V1 g! g
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
5
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 图片词典制作|主题: 41, 订阅: 7
- · 小众|主题: 22, 订阅: 4
|