掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

12
返回列表 发新帖
楼主: eeshu

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

 楼主| 发表于 2020-8-3 12:33:27 | 显示全部楼层
wjl 发表于 2020-8-3 12:101 F& }" e6 Q( u3 L4 l
我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?

, v  i% h$ G' Z7 K1 k2 Y7 f是可以,我帖子里就写了复制可以。

该用户从未签到

 楼主| 发表于 2020-8-3 12:34:09 | 显示全部楼层
喬治兄 发表于 2020-8-3 11:58, J9 {* ?# y) ?. Y
eeshu :9 G2 y7 S" L4 ?! h9 X
重複詞條也太多了.....不知為何如此

; m7 @3 y& r2 Z5 P7 _好像是pdf裁页拼接出了问题。我再重做一次。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 12:59:16 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:348 Y9 Y/ S! Q* l3 T
    好像是pdf裁页拼接出了问题。我再重做一次。

    5 a% b; H- B* m3 _已經處理 OK
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:00:15 | 显示全部楼层
    喬治兄 发表于 2020-8-3 11:58
    9 B- f8 }$ R% ieeshu :
    : e: W# l& N# e重複詞條也太多了.....不知為何如此
    : ]9 b( ]7 j+ {, i
    Time used for this section: 0 seconds
    0 k# o0 i1 D$ H( f) F, \' vBegin processing data contents...
    " p& z2 }5 z, d4 FDone!& r; Z8 B1 d" Y( G2 h1 F
    Original text size = 1159KB, compressed size = 432KB, compression ratio = 37%
    & x  d5 t0 F2 X- Q- Z0 |Time used for this section: 0 seconds& z* r+ z$ O( M# K' H' y
    Number of entries: 2783
    / g+ w1 V1 o4 R# v) s+ C7 j- hConversion succeed!
    6 p) A9 x2 L9 x2 P- w
    ; o7 v; D5 h, `$ s( F去重后2783条
    0 @( X5 P0 [% M& ^# i( P- E
    ; i, a, d1 b7 }9 g6 d3 H  M- t

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:33  v. n0 {; Q* C4 }' l/ C
    是可以,我帖子里就写了复制可以。
    ; k$ z! w9 e' z0 c" _
    不明白复制粘贴就能解决的问题,为啥还要找软件处理

    该用户从未签到

     楼主| 发表于 2020-8-3 13:03:29 | 显示全部楼层
    wjl 发表于 2020-8-3 13:00
    ; W* D% H' e* X! m4 dTime used for this section: 0 seconds
    % j4 F! R  J! B% T' qBegin processing data contents...
    7 W" G& J, X- ^& }! D# E& `Done!

    , H2 Z8 L( [. b- z& Y好的,谢谢。我也重做了,之后比对比对。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 13:08:30 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:03; R2 t8 P! @  ?2 M
    好的,谢谢。我也重做了,之后比对比对。
    * E$ K. U+ R& a
    https://www.pdawiki.com/forum/fo ... p;extra=#pid1960898

    该用户从未签到

     楼主| 发表于 2020-8-3 13:09:05 | 显示全部楼层
    wjl 发表于 2020-8-3 13:03) @1 l4 N/ E! v4 c
    不明白复制粘贴就能解决的问题,为啥还要找软件处理
    9 n$ u9 J1 ^4 |, F/ f1 v
    总不能逐页复制粘贴吧?
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:13:42 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:09
    , h- j. o' p, Z总不能逐页复制粘贴吧?

    7 Q& j) f! q4 Z7 x8 {0 t不是有ctrl+A全部选定吗

    该用户从未签到

     楼主| 发表于 2020-8-3 13:16:13 | 显示全部楼层
    本帖最后由 eeshu 于 2020-8-3 13:17 编辑
    , Q+ C" b. Z- N% ^+ a5 Y1 Q2 }; X
    wjl 发表于 2020-8-3 13:13
    . E( c. x/ G7 ]) u不是有ctrl+A全部选定吗
    $ M! h' s5 c, v& @4 r) }
    我的内存没有这么大。而且ctrl+A可以跨页复制吗?
  • TA的每日心情
    慵懒
    昨天 10:05
  • 签到天数: 2026 天

    [LV.Master]伴坛终老

    发表于 2020-8-4 04:40:53 | 显示全部楼层
    eeshu 发表于 2020-8-3 10:26
    & \4 L+ o& N! y. e7 d已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g
    7 R* G% e/ p9 e- F+ A& E; L提取码:kz89,请试试你的各种法宝。 ...
    0 ]+ b2 N% ~( x1 t9 ^
           楼主试过的acrobat、foxitsmallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、SumatraPDF、Calibre、PDF2TXT、txtFormat和Wondershare PDF Converter,前三种和最后一种成功转换,Calibre、PDF2TXT和txtFormat失败——根本没有汉字!文件也是最小的三种;原文件和转换后的文本文件列于下,文本压缩包见附件。
    . \4 a* m" x% k3 b) a/ V       从转换效果来看,Apabi Reader和SumatraPDF最好,基本与原文一致,Caj次之,Wondershare PDF Converter转换的每个汉字之间均有空格。Caj是这几个软件中唯一能正确双栏显示Pdf的,其他几个都只显示单栏;Calibre名气不小,而且支持的格式最多,但这次失败了;PDF2TXT批量转换较快,但经常有乱码。
    9 }3 _( l6 x0 ~& ^- s       另外,我在将带有表格的Htm(Html)转换为Txt文本中,试过多种方式,往往都难以保持表格对齐的格式,似乎除了很老的Netscape 4.05浏览器,现在流行的各种浏览器都不能正确地把网页存为保持表格格式的Txt文本,但Netscape上个世纪末被微软挤垮后再无踪影了, 虽然它无法支持今天的很多网页,但有这个优点,我仍然把它放在硬盘上备用。这个问题,不知各位大神有无高招?
    $ H  K6 R; Q( T& H5 ?
    7 _4 `7 E  t/ l" ZYan Yu Ci Dian cut - Wei Zhi.txt    0.97M
    0 }, f8 S5 k* ~* d; S5 p3 B谚语词典cut.pdf    61.11M* v2 f' t6 h7 @7 x& T( Q
    谚语词典cut_Apabi Reader.txt    2.98M* d! R* j/ l0 d5 t6 X+ i
    谚语词典cut_Caj.txt    2.69M! y# R7 m! H- A9 I7 e
    谚语词典cut_PDF2TXT.txt    1.93M
    0 z" V  R* U4 v! h& H谚语词典cut_SumatraPDF.txt    1.03M
    1 u+ ^" L9 R$ Q5 l谚语词典cut_txtFormat.txt    434.37k; C8 r0 `( P! S! L# h& p5 |/ c
    谚语词典cut_Wondershare PDF Converter.txt    2.91M
    * m$ r0 ~' f/ C6 E6 j) G" C
    # o2 e! O$ r) {* J  x, i/ Z1 e" D# d+ Y5 v# D

    * t2 R4 f5 m7 n( N# I4 f0 D( z- Q8 a+ O3 \0 u* x
    * W" c  P1 _( X" \
    ; G* P4 ~' p1 M1 o

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-4 05:53:17 | 显示全部楼层
    yfz48516 发表于 2020-8-4 04:400 a! e5 V3 h1 p
    楼主试过的acrobat、foxit和smallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、Suma ...

    3 b. N" ?  R2 g3 e0 X哇,辛苦你了。昨晚我换了台性能好些的电脑,可以直接复制全书内容。对于文字版pdf,这是最保险的方式。当然,格式没有,光有内容。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-17 20:32 , Processed in 0.020844 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表