掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1508|回复: 36

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

发表于 2020-8-3 06:58:26 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2020-8-3 13:01 编辑
- G. \0 b/ g3 V0 M) |/ z2 |( M- O. |# Y! D$ u) H6 L
谢谢大家。经过重新裁页和拼接再转存,已经成功提取所有文本。第一次失败估计是中间环节使用了一些打包工具造成的。: ], z2 t) @! p% R- A
第二次全程只用了acrobat,没有问题了。
9 Y' J+ w" I+ X- g9 `
4 Q7 u: T+ s) u- S; v  C0 G' p- t- ?7 r# S! |
试图将手上一本文字版pdf中的文本完整导出,无需保留排版和格式,只需留下文本内容即可。尝试acrobat直接存为txt,却发现文字和符号会错位。也尝试了好几个pdf to txt的软件,但是效果均不理想。请教论坛高手有什么手段可以解决吗?这是pdf原文截图:' \. C  H# ]8 C. Q& q9 d7 u' o
+ t& J6 ^) S. b" d  `
2 W  E8 U! T0 K+ h0 ~6 O% V
8 A, h  ], {3 ~9 V6 i3 x% Y/ u" j8 a

! k) Z( y6 f$ M5 D: c/ S" A/ Z3 n' v下面则是转成txt后的效果:5 O+ o. V1 X% A  H1 s$ E
+ E! M; k  Y% N( P
" Q# x: L% Q! x" k- z& q

3 V7 a. y7 O, ?2 d4 ?
0 V8 b) Q; K0 q1 F6 E! n5 H3 @很明显,尽管我已将原始pdf切了图,文字内容仍然走样,但是直接复制pdf文字,内容是正确的,如下:
: ?$ w) S7 N% r, u$ q
8 b1 x8 I8 e: U【按下葫芦瓢起来】 瓢:把葫芦
; w% X( w: Q% z- ]& R/ A锯成两半,去掉中间的瓤就成了/ J( E$ M- g) J4 ?! x$ W
瓢,可作舀水、舀米的用具。把葫1 ]; G4 _' b+ {$ W; H" g
芦按在水里,瓢又浮起来。意谓刚8 j) P$ {" h% J7 ~) Q
解决了一个问题,另一个问题又出
8 a' p, M$ L# O7 |% s现了。鲍昌《庚子风云》:“瞅准了; M% ~4 L4 s' R9 {% v$ K3 z
时机就扯旗大闹,‘按下葫芦瓢起! H3 g. N$ F7 w# d* [5 V& Z: e
来’,休想让洋人、官府再有个安生1 k; \; ]1 ~/ @* p' b4 s/ E
的日子了。”☆ [按下葫芦浮起瓢]- E' l, W  p% @6 t2 K# g" @( k
罗国士等《黑水魂》:“他挖空心思
8 Z2 I3 D) c9 {7 `! ?编了几个理由,才好容易把他稳1 d  T/ }& y  P, W; H
住。没想到,按下葫芦浮起瓢,门
- D) |5 }$ @8 o% H口好像发大水,乱成一片。”
- ]$ \# Q5 c! }1 O5 d! c
/ p/ P- }0 n7 C( w' g, l" H& ^6 L; n/ p4 ?5 P: O5 W
不知哪位有这方面的经验?请教一二。先行谢过。- I- K# K8 J, |& ]( r' w
# \: X) i. |: r( [2 \' q9 ^
1 S7 J) e+ ~3 m) d; F& V
' a, }; t/ y1 A; u1 v
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:33
    ( y8 G- s! c/ v是可以,我帖子里就写了复制可以。
    / ?! ~. z& W# D
    不明白复制粘贴就能解决的问题,为啥还要找软件处理
  • TA的每日心情
    擦汗
    2020-10-22 08:25
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2020-8-3 10:42:43 | 显示全部楼层
    楼主为什么最近都没有MDX的作品问世了
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2020-8-3 09:42:02 | 显示全部楼层
    13589311435 发表于 2020-8-3 09:11
    4 G! Q' n" F3 G& K, z能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY f ...

    : C# o: D& t1 L9 e7 n0 a  j楼主说的是文字版PDF,不是扫描版PDF,文字版PDF是不需要OCR的,文本就是以可复制文字储存的,只不过是PDF对文字的排版是通坐标实现的,这与常见的用标记语言排版的格式如Word、Markdown等不一样,所以在将PDF转换提取文字过程中可能出现楼主这样的排版问题
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2020-8-3 07:53:26 | 显示全部楼层
    识别文字不妨试试天若OCR,吾爱破解里有免费的学习版软件
  • TA的每日心情
    慵懒
    2021-11-4 14:19
  • 签到天数: 395 天

    [LV.9]以坛为家II

    发表于 2020-8-3 08:01:35 | 显示全部楼层
    abbyy 有各种保存文字/格式的选项
  • TA的每日心情
    慵懒
    2021-9-30 10:09
  • 签到天数: 321 天

    [LV.8]以坛为家I

    发表于 2020-8-3 08:30:09 | 显示全部楼层
    Python的PDFminer、PyMuPDF、PyXpdf好像都可以,前两个用的人比较多
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2020-8-3 08:46:57 | 显示全部楼层
    这个还没遇到过,文字版PDF转txt排版乱了,这个问题应该是跟软件有关,不同软件将PDF转文本过程的排版处理方式可能不尽相同,在这个功能上Acrobat可能没有去做到极致,可以考虑试试用其它第三方软件。# _: `" |8 N  n0 B0 p

    ; D) S; E7 V; L8 U2 }还有,可以试试先用Acrobat将PDF转为Word,然后再将Word转为txt,看效果会不会好点

    该用户从未签到

    发表于 2020-8-3 09:11:42 | 显示全部楼层
    能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY finereader也做不到,OCR一篇中文全部正确不代表OCR另一篇也全部正确。对于图片格式的OCR软件ABBYY Finereader无疑是全球第一了。可以保持原来的排版模式,这需要会使用这个软件。如果软件的OCR与你要求的相差甚远,那还是建议不要OCR了,直接采用讯飞语音输入法读这些文字重新排版。
      o, u- q$ m0 ?6 d如果采用ABBYY Finereader进行OCR文字识别,想要排版和识别率高些,那就请尽可能采用里面的ABBYY Finereader OCR Editor模块进行识别文字。

    该用户从未签到

    发表于 2020-8-3 09:45:34 | 显示全部楼层
    Mandolin 发表于 2020-8-3 09:42( g7 N- V. S  w7 a) i
    楼主说的是文字版PDF,不是扫描版PDF,文字版PDF是不需要OCR的,文本就是以可复制文字储存的,只不过是PD ...
      c4 o' e& s- e; l
    文字版的PDF就简单多了,软件多的是。
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2020-8-3 09:51:31 | 显示全部楼层
    没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:& J. X( G: H& \) I6 C& v

    ( F: P7 m$ B8 W, I9 `' h& r6 x0 _1)https://www.pdftohtml.net/
    " R2 n- F) j: m6 N% A" z2)https://convertio.co/zh/
    / O. G" ]; |! ?6 ?# f1 E' ]3)(百度网盘的PDF转docx)使用WPS打开PDF转docx,效果比word好

    该用户从未签到

     楼主| 发表于 2020-8-3 09:57:23 | 显示全部楼层
    VimVim 发表于 2020-8-3 09:51# \- Y) Y! x5 b& ?' j4 V
    没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:
    ! E" a) i5 @7 q; E* T1 K
    9 w. e, b3 V; q6 b ...

    2 |) f# A+ e/ U* u: K9 o谢谢,我试试。我其实只需文本即可,转成docx反而麻烦,自带的标签太多。

    该用户从未签到

     楼主| 发表于 2020-8-3 09:58:16 | 显示全部楼层
    williamson 发表于 2020-8-3 07:53
    $ K! u# M: d# g& p5 K% X$ R+ f7 W识别文字不妨试试天若OCR,吾爱破解里有免费的学习版软件
    $ S, h1 \! O, ~! w
    本身就是文字版,不需要ocr。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:00:32 | 显示全部楼层
    Mandolin 发表于 2020-8-3 08:46
    + Q* z; R; r" [3 @这个还没遇到过,文字版PDF转txt排版乱了,这个问题应该是跟软件有关,不同软件将PDF转文本过程的排版处理 ...
    4 l1 ?2 C7 q. J' E' C- c1 x
    对,就是因为acrobat转的效果不行我才尝试了其他几种,比如foxit,smallpdf。转成doc后会自带很多标签,要删除特别麻烦,还不如直接文本,只需添加一两个标签就完美了。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:01:33 | 显示全部楼层
    13589311435 发表于 2020-8-3 09:11+ _" ~, S, L. g2 X9 c) \4 m
    能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY f ...

    7 k% D! G, G8 Y* I不需要ocr,本身就是文字。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:13:59 | 显示全部楼层
    VimVim 发表于 2020-8-3 09:51
    % g8 s" x! ~5 U# s9 R0 W. b没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:
    - a0 u% I$ |: L- L! L; ^, ~7 W$ M* \1 C0 [6 F7 J0 v7 n
    ...
    # Z0 c! X  L  v* H: t9 ?6 ]" L
    pdftohtml.net只能转网页文件,https://convertio.co转出来是乱码。
  • TA的每日心情
    慵懒
    昨天 10:24
  • 签到天数: 2018 天

    [LV.Master]伴坛终老

    发表于 2020-8-3 10:14:03 | 显示全部楼层
             我常将不同格式的书转换为Txt,楼主的问题,我经常遇到,为此我准备了好几个软件,这个不行就换一个,楼主能否告知上述是哪本书,我若有,就一一测试一下,看哪个更能理想?* x$ Y  z1 G, B' v  P7 \
    7 N6 ~2 c0 {! d4 A' @* B* H- J

    该用户从未签到

     楼主| 发表于 2020-8-3 10:14:52 | 显示全部楼层
    eplono 发表于 2020-8-3 08:30* M) L: g7 K) G4 o# L; m( C
    Python的PDFminer、PyMuPDF、PyXpdf好像都可以,前两个用的人比较多
    . P4 ?! d: @. p' s& b
    谢谢,可惜python不会。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:26:20 | 显示全部楼层
    yfz48516 发表于 2020-8-3 10:146 c4 A# s+ `1 _9 Q/ l. j
    我常常将不同格式的书转换为Txt,楼主的问题,我经常遇到,为此我准备了好几个软件,这个不行就换 ...

    0 A2 ^2 P7 H2 @/ l已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g ) f* {) b8 f* @; }
    提取码:kz89,请试试你的各种法宝。谢谢。
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 10:29:42 | 显示全部楼层
    复制正确的话,将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧,我不清楚具体用什么软件和操作步骤,不过应该有很多这种自动化脚本软件,比如AutoHotkey

    该用户从未签到

     楼主| 发表于 2020-8-3 11:12:42 | 显示全部楼层
    武汉加油 发表于 2020-8-3 10:42
    $ d; e' l- r8 b. R3 }- h) P" @楼主为什么最近都没有MDX的作品问世了

    1 f8 f) ~- X& ]0 t  O$ I3 j承蒙看得起,我水平不行。

    该用户从未签到

     楼主| 发表于 2020-8-3 11:17:32 | 显示全部楼层
    wjl 发表于 2020-8-3 10:29! i4 a3 g: b# @1 S% R0 v* }
    复制正确的话,将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧,我不清楚具体用什么软件和操作 ...

    ) P( S! a! i1 N7 R1 A# L也是一条思路,谢谢。
  • TA的每日心情
    慵懒
    2021-9-30 10:09
  • 签到天数: 321 天

    [LV.8]以坛为家I

    发表于 2020-8-3 11:24:34 | 显示全部楼层
    MuPDF和Xpdf有C编译好的命令行,你可以找来试试。
      X9 k; Y! Y) |/ F/ j1 Y
    1 a9 Y/ I$ [  |& |3 p/ PPDFminer也有命令行,不过还是依赖Python
    : Q, W, K4 T+ F+ a2 ^https://pdfminersix.readthedocs.io/en/latest/reference/commandline.html
    / x4 ?  T0 i5 M8 X) L  k, z6 i( R- Q8 J' w. s4 L% h
    这个是PDFminer转的,楼主可以看看:
    / @* _5 q" r/ b1 c6 m1 o$ y/ z0 o5 G
    , [2 T$ ]  w4 ], b* E, @, j) c
    + L( e2 V! T, U* s: r, ^# C0 t1 y1 E( W: ]# Q
    其实还可以用Calibre转TXT的。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 11:58:05 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-8-3 12:01 编辑
    + q& C9 L1 ^, B8 h4 F
    8 n1 T- O9 W' x# N* {' B# B% b- ?( c7 ?& beeshu :' d. B( H+ }: n5 l- @3 k: R
    重複詞條也太多了.....不知為何如此* ^. L# @. g) J( d, J6 B8 _) x( L
    ) T8 c, s% N" S( ^4 H. @/ t
    您有一份文件待查收!即刻点击链接获取文件:https://cowtransfer.com/s/4674ebd2f2884e 或进入 cowtransfer.com 获取,在首页输入取件码:9j8kqz(24小时内有效)# P2 u/ R" K' Q  O$ a$ z- y

    8 x. g& B1 J( y7 z+ @9 ~4 G' a
    4 K! R* S8 b; c# Z3 X% Y1 K
    0 o) F4 }) U$ |. Q7 V9 H+ S0 S9 D. r
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 12:10:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 11:17
    1 R+ n6 @" d. Y% x+ i! c# d也是一条思路,谢谢。
    : e: K' q* G, [- c2 P8 L
    我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?
    . j; T. @6 q9 n3 V. e; H* z/ J
    & z; z, V$ e: T8 v% H, N7 T( B2 Z1 }( R1 V

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-3 12:10:44 | 显示全部楼层
    eplono 发表于 2020-8-3 11:24
    . i. l5 I6 O: EMuPDF和Xpdf有C编译好的命令行,你可以找来试试。
    , d6 C  n) y  S  m' G1 X
    * s/ e- r3 D2 O5 vPDFminer也有命令行,不过还是依赖Python

    + a% G4 r4 j- O# ]好的,谢谢。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-9 06:23 , Processed in 0.025076 second(s), 23 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表