（已解决）什么软件能将文字版pdf中的文本完整提取出来？

eeshu · 发表于 2020-8-3 06:58:26

本帖最后由 eeshu 于 2020-8-3 13:01 编辑

谢谢大家。经过重新裁页和拼接再转存，已经成功提取所有文本。第一次失败估计是中间环节使用了一些打包工具造成的。
第二次全程只用了acrobat，没有问题了。

试图将手上一本文字版pdf中的文本完整导出，无需保留排版和格式，只需留下文本内容即可。尝试acrobat直接存为txt，却发现文字和符号会错位。也尝试了好几个pdf to txt的软件，但是效果均不理想。请教论坛高手有什么手段可以解决吗？这是pdf原文截图：

下面则是转成txt后的效果：

很明显，尽管我已将原始pdf切了图，文字内容仍然走样，但是直接复制pdf文字，内容是正确的，如下：

【按下葫芦瓢起来】　瓢：把葫芦
锯成两半，去掉中间的瓤就成了
瓢，可作舀水、舀米的用具。把葫
芦按在水里，瓢又浮起来。意谓刚
解决了一个问题，另一个问题又出
现了。鲍昌《庚子风云》：“瞅准了
时机就扯旗大闹，‘按下葫芦瓢起
来’，休想让洋人、官府再有个安生
的日子了。”☆ ［按下葫芦浮起瓢］
罗国士等《黑水魂》：“他挖空心思
编了几个理由，才好容易把他稳
住。没想到，按下葫芦浮起瓢，门
口好像发大水，乱成一片。”

不知哪位有这方面的经验？请教一二。先行谢过。

wjl · 发表于 2020-8-3 13:03:14

eeshu 发表于 2020-8-3 12:33
( y8 G- s! c/ v是可以，我帖子里就写了复制可以。

不明白复制粘贴就能解决的问题，为啥还要找软件处理

武汉加油 · 发表于 2020-8-3 10:42:43

楼主为什么最近都没有MDX的作品问世了

Mandolin · 发表于 2020-8-3 09:42:02

13589311435 发表于 2020-8-3 09:11
4 G! Q' n" F3 G& K, z能够100% OCR中文准确的软件应该没有，多多少少都需要修改一点，即便是在OCR方面算是处于全球第一的ABBYY f ...

楼主说的是文字版PDF，不是扫描版PDF，文字版PDF是不需要OCR的，文本就是以可复制文字储存的，只不过是PDF对文字的排版是通坐标实现的，这与常见的用标记语言排版的格式如Word、Markdown等不一样，所以在将PDF转换提取文字过程中可能出现楼主这样的排版问题。

williamson · 发表于 2020-8-3 07:53:26

识别文字不妨试试天若OCR，吾爱破解里有免费的学习版软件

abtxu · 发表于 2020-8-3 08:01:35

abbyy 有各种保存文字/格式的选项

eplono · 发表于 2020-8-3 08:30:09

Python的PDFminer、PyMuPDF、PyXpdf好像都可以，前两个用的人比较多

Mandolin · 发表于 2020-8-3 08:46:57

这个还没遇到过，文字版PDF转txt排版乱了，这个问题应该是跟软件有关，不同软件将PDF转文本过程的排版处理方式可能不尽相同，在这个功能上Acrobat可能没有去做到极致，可以考虑试试用其它第三方软件。

还有，可以试试先用Acrobat将PDF转为Word，然后再将Word转为txt，看效果会不会好点

13589311435 · 发表于 2020-8-3 09:11:42

能够100% OCR中文准确的软件应该没有，多多少少都需要修改一点，即便是在OCR方面算是处于全球第一的ABBYY finereader也做不到，OCR一篇中文全部正确不代表OCR另一篇也全部正确。对于图片格式的OCR软件ABBYY Finereader无疑是全球第一了。可以保持原来的排版模式，这需要会使用这个软件。如果软件的OCR与你要求的相差甚远，那还是建议不要OCR了,直接采用讯飞语音输入法读这些文字重新排版。
如果采用ABBYY Finereader进行OCR文字识别，想要排版和识别率高些，那就请尽可能采用里面的ABBYY Finereader OCR Editor模块进行识别文字。

13589311435 · 发表于 2020-8-3 09:45:34

Mandolin 发表于 2020-8-3 09:42( g7 N- V. S w7 a) i
楼主说的是文字版PDF，不是扫描版PDF，文字版PDF是不需要OCR的，文本就是以可复制文字储存的，只不过是PD ...

文字版的PDF就简单多了，软件多的是。

VimVim · 发表于 2020-8-3 09:51:31

没有完美的转换方法，各有各的问题，而且不同文本在各种解决方案下的效果也不同，以下补充一些参见方案：

1）https://www.pdftohtml.net/
2）https://convertio.co/zh/
3）（百度网盘的PDF转docx）使用WPS打开PDF转docx，效果比word好

eeshu · 发表于 2020-8-3 09:57:23

VimVim 发表于 2020-8-3 09:51# \- Y) Y! x5 b& ?' j4 V
没有完美的转换方法，各有各的问题，而且不同文本在各种解决方案下的效果也不同，以下补充一些参见方案：
! E" a) i5 @7 q; E* T1 K
9 w. e, b3 V; q6 b ...

谢谢，我试试。我其实只需文本即可，转成docx反而麻烦，自带的标签太多。

eeshu · 发表于 2020-8-3 09:58:16

williamson 发表于 2020-8-3 07:53
$ K! u# M: d# g& p5 K% X$ R+ f7 W识别文字不妨试试天若OCR，吾爱破解里有免费的学习版软件

本身就是文字版，不需要ocr。

eeshu · 发表于 2020-8-3 10:00:32

Mandolin 发表于 2020-8-3 08:46
+ Q* z; R; r" [3 @这个还没遇到过，文字版PDF转txt排版乱了，这个问题应该是跟软件有关，不同软件将PDF转文本过程的排版处理 ...

对，就是因为acrobat转的效果不行我才尝试了其他几种，比如foxit，smallpdf。转成doc后会自带很多标签，要删除特别麻烦，还不如直接文本，只需添加一两个标签就完美了。

eeshu · 发表于 2020-8-3 10:01:33

13589311435 发表于 2020-8-3 09:11+ _" ~, S, L. g2 X9 c) \4 m
能够100% OCR中文准确的软件应该没有，多多少少都需要修改一点，即便是在OCR方面算是处于全球第一的ABBYY f ...

不需要ocr，本身就是文字。

eeshu · 发表于 2020-8-3 10:13:59

VimVim 发表于 2020-8-3 09:51
% g8 s" x! ~5 U# s9 R0 W. b没有完美的转换方法，各有各的问题，而且不同文本在各种解决方案下的效果也不同，以下补充一些参见方案：
- a0 u% I$ |: L- L! L; ^, ~7 W$ M* \1 C0 [6 F7 J0 v7 n
...

pdftohtml.net只能转网页文件，https://convertio.co转出来是乱码。

yfz48516 · 发表于 2020-8-3 10:14:03

我常常将不同格式的书转换为Txt，楼主的问题，我经常遇到，为此我准备了好几个软件，这个不行就换一个，楼主能否告知上述是哪本书，我若有，就一一测试一下，看哪个更能理想？

eeshu · 发表于 2020-8-3 10:14:52

eplono 发表于 2020-8-3 08:30* M) L: g7 K) G4 o# L; m( C
Python的PDFminer、PyMuPDF、PyXpdf好像都可以，前两个用的人比较多

谢谢，可惜python不会。

eeshu · 发表于 2020-8-3 10:26:20

yfz48516 发表于 2020-8-3 10:146 c4 A# s+ `1 _9 Q/ l. j
我常常将不同格式的书转换为Txt，楼主的问题，我经常遇到，为此我准备了好几个软件，这个不行就换 ...

已经上传链接：https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g
提取码：kz89，请试试你的各种法宝。谢谢。

wjl · 发表于 2020-8-3 10:29:42

复制正确的话，将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧，我不清楚具体用什么软件和操作步骤，不过应该有很多这种自动化脚本软件，比如AutoHotkey

eeshu · 发表于 2020-8-3 11:12:42

武汉加油发表于 2020-8-3 10:42
$ d; e' l- r8 b. R3 }- h) P" @楼主为什么最近都没有MDX的作品问世了

承蒙看得起，我水平不行。

eeshu · 发表于 2020-8-3 11:17:32

wjl 发表于 2020-8-3 10:29! i4 a3 g: b# @1 S% R0 v* }
复制正确的话，将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧，我不清楚具体用什么软件和操作 ...

也是一条思路，谢谢。

eplono · 发表于 2020-8-3 11:24:34

MuPDF和Xpdf有C编译好的命令行，你可以找来试试。

PDFminer也有命令行，不过还是依赖Python
（https://pdfminersix.readthedocs.io/en/latest/reference/commandline.html）

这个是PDFminer转的，楼主可以看看：

其实还可以用Calibre转TXT的。

喬治兄 · 发表于 2020-8-3 11:58:05

本帖最后由喬治兄于 2020-8-3 12:01 编辑

eeshu :
重複詞條也太多了.....不知為何如此

您有一份文件待查收！即刻点击链接获取文件：https://cowtransfer.com/s/4674ebd2f2884e 或进入 cowtransfer.com 获取，在首页输入取件码：9j8kqz（24小时内有效）

wjl · 发表于 2020-8-3 12:10:14

eeshu 发表于 2020-8-3 11:17
1 R+ n6 @" d. Y% x+ i! c# d也是一条思路，谢谢。

我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀，起码第一页没问题，你那里不行吗？

eeshu · 发表于 2020-8-3 12:10:44

eplono 发表于 2020-8-3 11:24
. i. l5 I6 O: EMuPDF和Xpdf有C编译好的命令行，你可以找来试试。
, d6 C n) y S m' G1 X
* s/ e- r3 D2 O5 vPDFminer也有命令行，不过还是依赖Python

好的，谢谢。

		自动登录	找回密码
密码			免费注册

[求助] （已解决）什么软件能将文字版pdf中的文本完整提取出来？

本帖子中包含更多资源

本帖子中包含更多资源