pdf装换成pdb软件。。。。。。。
希望大家都找一下,我找了半天也不知道怎么搞安装好Gemini后,先来设置一下:
在“Edit”-“Preferences”中,General分页的“Text Output”选择“HTML 4 CSS”,“Image Output”选JPEG或PNG(个人觉得JPEG兼容性更好一些)。
在“Text”分页中,主要设置一下“Text Encoding”这一项,如果是中文的PDF文档可以选GB2312,我转换了几次0day的英文电子书,发现采用Unicode-(UTF-8)的编码页面效果最好,基本没有乱码。
其他几个分月按默认就可以。
现在可以来转换PDF到HTML了:
在菜单的“Export”中选“Batch”,然后在弹出的窗口中直接按照默认的“All Pages”点击OK按键,当然也可以自己设定要转化的页面。然后在弹出窗口中选择要转换的PDF文档,下一步指定输出的目录后就开始转换了,整个转换十分流畅,在我试用过的PDF转换软件中是最快的。
结束后在刚才指定的输出目录后找到转换的文件,一共是三个HTML文件和一个images目录,分别为(原PDF文件名)-Index.HTML,(原PDF文件名)-BkMrk.HTML和(原PDF文件名).HTML。其中的(原PDF文件名)-Index.HTML是一个框架格式索引页面,(原PDF文件名)-BkMrk.HTML为目录页面,(原PDF文件名).HTML是内容页面。在(原PDF文件名)-Index.HTML的框架结构中,左边框架为(原PDF文件名)-BkMrk.HTML页面,右边的框架为(原PDF文件名).HTML页面。
经过尝试后发现,iSiloX可以完美的支持*-Index.html+*-BkMrk.html+*.html这种排版格式组合,转换后的PDB很好的保持了原来PDF文档中的排版样式。
而Plucker的转换软件Sunrise由于没法指定多个html文档转换,最后发觉直接指定sunrise转换(原PDF文件名)-BkMrk.HTML这个文件,同时设定链接深度为2,就能在包含原文文本内容的同时保持很好的排版,但总体排版的效果也不如iSiloX。由于我用这个方法来转换一些0day的英文电子书,而Plucker有较好的ZDIC即点即译,所以我同时转换了iSilo和Plucker两种格式。
需要注意的是,如果是中文文档,在转换Plucker的格式时,需要在sunrise中选择iso-8859-1的编码格式才能正常显示中文
就是没有看懂,懂的人说一下 自己先顶一下 我觉得,最好先用PDF2HTML把PDF专为HTML,再用iSiloX从HTML专成PDB。 意思是下一个Gemini solo这个软件来批量转换pdf文档为html文件,这个币pdf2html nb的地方是完整提取出来pdf的图片。速度也快不少。 好东东看看再说 呵呵,有意思! 谢谢各位,愿大家动手快乐!
页:
[1]