掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1141|回复: 36

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

发表于 2020-8-3 06:58:26 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2020-8-3 13:01 编辑
$ O3 Q6 ]" C- \6 K0 K6 w- a3 g  g) L. t3 g# n# J
谢谢大家。经过重新裁页和拼接再转存,已经成功提取所有文本。第一次失败估计是中间环节使用了一些打包工具造成的。3 {& K: y% B% s/ k1 B, Y
第二次全程只用了acrobat,没有问题了。
# l. ]7 v, Y) p. O- O
7 k) K0 M6 Y4 q) m" z; o1 D- D* n
- i( p' F! r+ v" Q- c& j' _试图将手上一本文字版pdf中的文本完整导出,无需保留排版和格式,只需留下文本内容即可。尝试acrobat直接存为txt,却发现文字和符号会错位。也尝试了好几个pdf to txt的软件,但是效果均不理想。请教论坛高手有什么手段可以解决吗?这是pdf原文截图:
# ]+ Q. s: [& Z" T
* s4 }" o0 S' @2 Y1 |9 \" ?8 {6 }3 V" V) W

! Z; i' U) [: x
  J, W) m& n' Q5 N3 W( F7 ~下面则是转成txt后的效果:6 i4 r4 o/ f& c

  g9 o( e# H3 H  N" _* a9 A! |" |5 B; L/ n- J6 g! g1 ^, m$ K  ~  J
9 G* q# T! o" o: v9 v

& h2 J8 k0 y# e" p6 B很明显,尽管我已将原始pdf切了图,文字内容仍然走样,但是直接复制pdf文字,内容是正确的,如下:
3 l* j% n0 h0 g' a  f- \% M: r$ j! p; G7 h& ~
【按下葫芦瓢起来】 瓢:把葫芦& G; `+ B5 y) j, v2 p
锯成两半,去掉中间的瓤就成了: Z* F( R% J" i  m2 r) A; W
瓢,可作舀水、舀米的用具。把葫4 O& ]( m$ b. o2 B  K$ ]8 T( n1 K% w
芦按在水里,瓢又浮起来。意谓刚
3 L' H& M2 W% S& a/ p解决了一个问题,另一个问题又出. `+ U: w" H( [% Y( i
现了。鲍昌《庚子风云》:“瞅准了% S1 I% i6 v' y% \
时机就扯旗大闹,‘按下葫芦瓢起  e7 b( {- S1 Q9 E7 t, F3 ?" h
来’,休想让洋人、官府再有个安生& c( k0 V5 _1 D6 X
的日子了。”☆ [按下葫芦浮起瓢]* o0 _" j  |, [+ ?; a- H" \
罗国士等《黑水魂》:“他挖空心思
% }' |' R. m" p$ B' @3 W3 g* B0 M编了几个理由,才好容易把他稳3 x7 D/ s0 I* o/ i! K  ?$ [( r( o
住。没想到,按下葫芦浮起瓢,门. C. ]3 `* p, h9 j# P
口好像发大水,乱成一片。”1 N# n  K8 U' Q" g

$ F1 E% w1 c& f% n
' d+ y! `/ @# N4 I' V% C( r; O- a不知哪位有这方面的经验?请教一二。先行谢过。
! S& d* b/ p( C( Z2 G1 n' i
9 |9 Q& o  j& |; n2 W1 v: b$ q
  `' V/ t1 O( p1 ^
5 x% _# P6 h  _  X3 d
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:33
    & @3 [3 x. p+ T' ~9 U$ W是可以,我帖子里就写了复制可以。

    1 X' Z3 R; B) V不明白复制粘贴就能解决的问题,为啥还要找软件处理
  • TA的每日心情
    擦汗
    2020-10-22 08:25
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2020-8-3 10:42:43 | 显示全部楼层
    楼主为什么最近都没有MDX的作品问世了
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2020-8-3 09:42:02 | 显示全部楼层
    13589311435 发表于 2020-8-3 09:118 @% a8 N2 p7 y6 D2 j8 @0 i+ l) N6 m
    能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY f ...

    * ^% v& P& E! g5 i楼主说的是文字版PDF,不是扫描版PDF,文字版PDF是不需要OCR的,文本就是以可复制文字储存的,只不过是PDF对文字的排版是通坐标实现的,这与常见的用标记语言排版的格式如Word、Markdown等不一样,所以在将PDF转换提取文字过程中可能出现楼主这样的排版问题
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2020-8-3 07:53:26 | 显示全部楼层
    识别文字不妨试试天若OCR,吾爱破解里有免费的学习版软件
  • TA的每日心情
    慵懒
    2021-11-4 14:19
  • 签到天数: 395 天

    [LV.9]以坛为家II

    发表于 2020-8-3 08:01:35 | 显示全部楼层
    abbyy 有各种保存文字/格式的选项
  • TA的每日心情
    慵懒
    2021-9-30 10:09
  • 签到天数: 321 天

    [LV.8]以坛为家I

    发表于 2020-8-3 08:30:09 | 显示全部楼层
    Python的PDFminer、PyMuPDF、PyXpdf好像都可以,前两个用的人比较多
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2020-8-3 08:46:57 | 显示全部楼层
    这个还没遇到过,文字版PDF转txt排版乱了,这个问题应该是跟软件有关,不同软件将PDF转文本过程的排版处理方式可能不尽相同,在这个功能上Acrobat可能没有去做到极致,可以考虑试试用其它第三方软件。
    1 r6 M" x( e/ W! v2 ], A: g( E  i- T
    还有,可以试试先用Acrobat将PDF转为Word,然后再将Word转为txt,看效果会不会好点

    该用户从未签到

    发表于 2020-8-3 09:11:42 | 显示全部楼层
    能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY finereader也做不到,OCR一篇中文全部正确不代表OCR另一篇也全部正确。对于图片格式的OCR软件ABBYY Finereader无疑是全球第一了。可以保持原来的排版模式,这需要会使用这个软件。如果软件的OCR与你要求的相差甚远,那还是建议不要OCR了,直接采用讯飞语音输入法读这些文字重新排版。
    ; w) x% Z1 ?) s' Y如果采用ABBYY Finereader进行OCR文字识别,想要排版和识别率高些,那就请尽可能采用里面的ABBYY Finereader OCR Editor模块进行识别文字。

    该用户从未签到

    发表于 2020-8-3 09:45:34 | 显示全部楼层
    Mandolin 发表于 2020-8-3 09:42/ ]* S% I. x4 w* ~7 \% P# F
    楼主说的是文字版PDF,不是扫描版PDF,文字版PDF是不需要OCR的,文本就是以可复制文字储存的,只不过是PD ...
      `: s4 ]6 N; i  j2 C0 B! U/ o
    文字版的PDF就简单多了,软件多的是。
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2020-8-3 09:51:31 | 显示全部楼层
    没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:+ v! Y$ @  c8 E& \+ d7 C2 C

    - d. Y& ^+ U$ c& K6 i& P1)https://www.pdftohtml.net/
    7 o7 K. A$ S' v8 i2)https://convertio.co/zh/
    , {; F. R! T+ U3)(百度网盘的PDF转docx)使用WPS打开PDF转docx,效果比word好

    该用户从未签到

     楼主| 发表于 2020-8-3 09:57:23 | 显示全部楼层
    VimVim 发表于 2020-8-3 09:51
    8 o* t1 V) g8 f$ @没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:
    4 S3 A2 @/ [9 a1 f, c3 U
    ; \% G" d2 X8 a8 [, v  h$ J ...
    + L7 B* u3 |0 q7 A2 a0 K( Q- s" }
    谢谢,我试试。我其实只需文本即可,转成docx反而麻烦,自带的标签太多。

    该用户从未签到

     楼主| 发表于 2020-8-3 09:58:16 | 显示全部楼层
    williamson 发表于 2020-8-3 07:53
    3 }4 E% Y( A1 c+ @+ O) I识别文字不妨试试天若OCR,吾爱破解里有免费的学习版软件
    0 [8 @1 N' d1 `3 Z  P
    本身就是文字版,不需要ocr。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:00:32 | 显示全部楼层
    Mandolin 发表于 2020-8-3 08:46
    9 J2 N5 j' C4 g7 ]* S% o! I( W. N, ^这个还没遇到过,文字版PDF转txt排版乱了,这个问题应该是跟软件有关,不同软件将PDF转文本过程的排版处理 ...
    " P; J  l$ K  E8 U+ V& P0 h5 a/ e& j
    对,就是因为acrobat转的效果不行我才尝试了其他几种,比如foxit,smallpdf。转成doc后会自带很多标签,要删除特别麻烦,还不如直接文本,只需添加一两个标签就完美了。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:01:33 | 显示全部楼层
    13589311435 发表于 2020-8-3 09:11
    & ~4 q/ p- H3 ~) T* c能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY f ...

    , Z$ e( z4 W2 S0 K# h不需要ocr,本身就是文字。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:13:59 | 显示全部楼层
    VimVim 发表于 2020-8-3 09:51
    4 a* U( O1 ]2 I* `9 n没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:
    - t5 R9 F4 p9 o* y  W
    0 F  p; A+ y9 i3 N" A ...
    8 g0 B  {8 J* {* H4 W% H
    pdftohtml.net只能转网页文件,https://convertio.co转出来是乱码。
  • TA的每日心情
    慵懒
    4 小时前
  • 签到天数: 1734 天

    [LV.Master]伴坛终老

    发表于 2020-8-3 10:14:03 | 显示全部楼层
             我常将不同格式的书转换为Txt,楼主的问题,我经常遇到,为此我准备了好几个软件,这个不行就换一个,楼主能否告知上述是哪本书,我若有,就一一测试一下,看哪个更能理想?
    : w+ h6 T" D# u1 \$ x/ z1 Q# ?6 b) l: X5 b

    该用户从未签到

     楼主| 发表于 2020-8-3 10:14:52 | 显示全部楼层
    eplono 发表于 2020-8-3 08:30
    % S2 l3 c, J' a4 u1 x5 X: u! D) P8 C0 }Python的PDFminer、PyMuPDF、PyXpdf好像都可以,前两个用的人比较多

    : S. O3 d, ^% ?$ ]/ f5 |1 X谢谢,可惜python不会。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:26:20 | 显示全部楼层
    yfz48516 发表于 2020-8-3 10:14
    2 Q  a# R# i8 E; m' V7 w  r我常常将不同格式的书转换为Txt,楼主的问题,我经常遇到,为此我准备了好几个软件,这个不行就换 ...
    3 ^( q+ B$ p( k  D2 v, p- _
    已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g ' v1 b2 Q' V, b; @4 y* ^& r& l
    提取码:kz89,请试试你的各种法宝。谢谢。
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 10:29:42 | 显示全部楼层
    复制正确的话,将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧,我不清楚具体用什么软件和操作步骤,不过应该有很多这种自动化脚本软件,比如AutoHotkey

    该用户从未签到

     楼主| 发表于 2020-8-3 11:12:42 | 显示全部楼层
    武汉加油 发表于 2020-8-3 10:42, B# ?% x9 N6 q* n0 r# R' i& n
    楼主为什么最近都没有MDX的作品问世了
    & d) j% }: S$ N
    承蒙看得起,我水平不行。

    该用户从未签到

     楼主| 发表于 2020-8-3 11:17:32 | 显示全部楼层
    wjl 发表于 2020-8-3 10:29; o, D$ {$ h7 P$ g; z4 M1 [. B6 W
    复制正确的话,将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧,我不清楚具体用什么软件和操作 ...

    - o: ~7 Q3 I* U2 G7 X; e( X6 w也是一条思路,谢谢。
  • TA的每日心情
    慵懒
    2021-9-30 10:09
  • 签到天数: 321 天

    [LV.8]以坛为家I

    发表于 2020-8-3 11:24:34 | 显示全部楼层
    MuPDF和Xpdf有C编译好的命令行,你可以找来试试。( f) D. J1 S, {+ l0 R1 m
    & }( ]1 E. |, v( g- n) |
    PDFminer也有命令行,不过还是依赖Python
    & x* X" {' s! m3 Z% Shttps://pdfminersix.readthedocs.io/en/latest/reference/commandline.html
    , W) W1 r+ C' Z9 w
    ( B2 w7 j3 L1 x- ^: s* v/ q这个是PDFminer转的,楼主可以看看:" ~; p9 F- A3 ^4 b
    . O5 c8 {4 Y( j9 e% P
    5 R. a0 y1 C" h1 x+ D. W4 k' C% ?

    ( j& E2 e$ J- V其实还可以用Calibre转TXT的。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 11:58:05 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-8-3 12:01 编辑
    % l6 I  q7 O, \; D3 o9 K9 v3 B  l% E( r9 ^: w2 h  X1 a+ i3 _. s
    eeshu :" m$ h$ A, L0 m
    重複詞條也太多了.....不知為何如此
    9 g( p  F; _' }& ?
    # L4 H( [" O5 Z5 _& d7 e% Z$ @您有一份文件待查收!即刻点击链接获取文件:https://cowtransfer.com/s/4674ebd2f2884e 或进入 cowtransfer.com 获取,在首页输入取件码:9j8kqz(24小时内有效)
    ! F. J6 a2 B* M' t4 `4 K( b) H
    ' l. |- x/ ]) A3 X( a
    " b2 ~/ b: c, _- x5 A
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 12:10:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 11:17
    , K3 A% D) _, @7 ~/ O( y5 w' ?' K! v也是一条思路,谢谢。

    , |; V! v- @; ]) c+ t5 u" k我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?% G) S4 Z8 X. m$ E
    & e; ?+ _- }9 N0 `( l8 s

    5 w" L1 y4 q. u# L5 e, C

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-3 12:10:44 | 显示全部楼层
    eplono 发表于 2020-8-3 11:24. \7 k, _$ @" E5 `5 H, w/ N
    MuPDF和Xpdf有C编译好的命令行,你可以找来试试。$ N$ M' V. c$ H
    0 V+ @- m6 s, u% n$ i5 A6 ~
    PDFminer也有命令行,不过还是依赖Python

    9 ~0 g! W7 ~' Y  H& |% b& l$ o好的,谢谢。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-9 19:32 , Processed in 0.068337 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表