掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

12
返回列表 发新帖
楼主: eeshu

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

 楼主| 发表于 2020-8-3 12:33:27 | 显示全部楼层
wjl 发表于 2020-8-3 12:106 u; F" p/ z! k& n/ x2 B* C0 Y: U
我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?

/ ?; e; c0 _' E* K) }% T3 G是可以,我帖子里就写了复制可以。

该用户从未签到

 楼主| 发表于 2020-8-3 12:34:09 | 显示全部楼层
喬治兄 发表于 2020-8-3 11:58
9 A0 I8 k' p3 i5 X: D0 _' h0 M8 Ieeshu :
4 ]: P& Y+ N4 ^1 P$ r' ]) N/ `" I重複詞條也太多了.....不知為何如此

  O2 t% N* T* d# @; u好像是pdf裁页拼接出了问题。我再重做一次。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 12:59:16 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:34
    : N9 @  C- V: Z! F好像是pdf裁页拼接出了问题。我再重做一次。
    & C4 b6 c, |# I2 M0 J
    已經處理 OK
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:00:15 | 显示全部楼层
    喬治兄 发表于 2020-8-3 11:583 Y1 T5 e* T3 I3 S9 A3 C" O! G7 i
    eeshu :9 E5 P6 e. X" y" h0 J
    重複詞條也太多了.....不知為何如此

    ( T) j0 R/ h# j1 zTime used for this section: 0 seconds
    7 x/ f4 K7 F+ S) z6 R6 P* oBegin processing data contents...6 d! u7 b/ m- q; L4 h
    Done!
    ; A' p- [- s9 J0 _# G3 m" u, q9 J3 S" dOriginal text size = 1159KB, compressed size = 432KB, compression ratio = 37%
    2 p+ j' G; o: X, J8 @Time used for this section: 0 seconds
    2 e3 H9 e( H3 J1 P9 aNumber of entries: 2783
    ' O& u* O+ b. x8 J) X% p% zConversion succeed!- [/ M2 ~& A+ x% p( n6 L

    6 x/ S' h/ y6 Z# t去重后2783条4 ~- z, Z6 Z3 j) [

    / p/ Y  Z$ {: z  u; k# p  z' V

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:33* u7 z1 x6 a7 f: X6 j& ^/ n& t+ p
    是可以,我帖子里就写了复制可以。

    # F9 o+ Q$ b# S# s" ]# A( c3 P不明白复制粘贴就能解决的问题,为啥还要找软件处理

    该用户从未签到

     楼主| 发表于 2020-8-3 13:03:29 | 显示全部楼层
    wjl 发表于 2020-8-3 13:00) F  A9 `- s8 D( a: ?8 b8 L
    Time used for this section: 0 seconds
    . ]% [! N# @3 u$ V5 I1 |Begin processing data contents...8 r' X, r8 S. i. M6 I7 ^/ [
    Done!

    # A3 }$ q+ C0 P' F9 u好的,谢谢。我也重做了,之后比对比对。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 13:08:30 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:03
    0 }5 a7 v1 G6 Z+ X2 H好的,谢谢。我也重做了,之后比对比对。
    6 V! P- ?; y: p' T3 Y
    https://www.pdawiki.com/forum/fo ... p;extra=#pid1960898

    该用户从未签到

     楼主| 发表于 2020-8-3 13:09:05 | 显示全部楼层
    wjl 发表于 2020-8-3 13:03
    4 X7 b$ F2 e3 C5 U, z7 i5 m/ n1 v, A不明白复制粘贴就能解决的问题,为啥还要找软件处理
    2 A# S2 m- _. ~
    总不能逐页复制粘贴吧?
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:13:42 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:09
    ! n" O2 X. X5 Y" J& x& T1 A& {总不能逐页复制粘贴吧?

    & H4 ?  u6 t6 l8 P$ A2 e不是有ctrl+A全部选定吗

    该用户从未签到

     楼主| 发表于 2020-8-3 13:16:13 | 显示全部楼层
    本帖最后由 eeshu 于 2020-8-3 13:17 编辑
    " x* k2 Y1 P6 a. n& @3 r/ a( h
    wjl 发表于 2020-8-3 13:13" T5 B; s0 v2 D* l
    不是有ctrl+A全部选定吗

    3 E0 h2 P1 ?% \8 _" S我的内存没有这么大。而且ctrl+A可以跨页复制吗?
  • TA的每日心情
    慵懒
    昨天 14:45
  • 签到天数: 1734 天

    [LV.Master]伴坛终老

    发表于 2020-8-4 04:40:53 | 显示全部楼层
    eeshu 发表于 2020-8-3 10:26
    : L8 [2 J- r( M; b8 \7 ^已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g
    ! i7 k5 z4 r, O# R提取码:kz89,请试试你的各种法宝。 ...
      ~' u, B% E4 @" Z) y  q/ |6 H
           楼主试过的acrobat、foxitsmallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、SumatraPDF、Calibre、PDF2TXT、txtFormat和Wondershare PDF Converter,前三种和最后一种成功转换,Calibre、PDF2TXT和txtFormat失败——根本没有汉字!文件也是最小的三种;原文件和转换后的文本文件列于下,文本压缩包见附件。
    0 Q( D6 u6 l* z; n* {3 d       从转换效果来看,Apabi Reader和SumatraPDF最好,基本与原文一致,Caj次之,Wondershare PDF Converter转换的每个汉字之间均有空格。Caj是这几个软件中唯一能正确双栏显示Pdf的,其他几个都只显示单栏;Calibre名气不小,而且支持的格式最多,但这次失败了;PDF2TXT批量转换较快,但经常有乱码。
    8 K$ }: F# b7 I       另外,我在将带有表格的Htm(Html)转换为Txt文本中,试过多种方式,往往都难以保持表格对齐的格式,似乎除了很老的Netscape 4.05浏览器,现在流行的各种浏览器都不能正确地把网页存为保持表格格式的Txt文本,但Netscape上个世纪末被微软挤垮后再无踪影了, 虽然它无法支持今天的很多网页,但有这个优点,我仍然把它放在硬盘上备用。这个问题,不知各位大神有无高招?& Z) J, O; n! z! K+ g, W
    ' P1 X7 F3 Q" T7 Y
    Yan Yu Ci Dian cut - Wei Zhi.txt    0.97M
    3 c- }' o% U- P" i1 r8 p+ y) v谚语词典cut.pdf    61.11M
    ) w; D2 d( k3 d/ N# P' T$ ]; ]% c谚语词典cut_Apabi Reader.txt    2.98M
    7 t& @/ k0 k  g; j* ?! V谚语词典cut_Caj.txt    2.69M$ J1 E5 Q3 ?+ z+ h" l. `
    谚语词典cut_PDF2TXT.txt    1.93M' [' W) Q9 F/ ]! h- ~
    谚语词典cut_SumatraPDF.txt    1.03M
    9 V1 g$ @/ k( k. [, Q$ X& _谚语词典cut_txtFormat.txt    434.37k
    * H& [# w* O8 B, |9 V3 L) a) i谚语词典cut_Wondershare PDF Converter.txt    2.91M
    / X2 x3 z5 B) n- I8 S2 p% ?$ N" p7 |) w! b  c+ F. P
    ' T) `6 R8 b+ c2 h5 E& {
    ( O: [- j% t! N0 B4 ?# c

    2 g& l3 u9 n- [+ C3 L
    & j, H- N4 O" r; \; Y0 s( \, }8 A. @' S: X8 @: ^  Y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-4 05:53:17 | 显示全部楼层
    yfz48516 发表于 2020-8-4 04:40; y' Q* o0 j( v+ J
    楼主试过的acrobat、foxit和smallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、Suma ...

    $ @$ M/ C. z! U哇,辛苦你了。昨晚我换了台性能好些的电脑,可以直接复制全书内容。对于文字版pdf,这是最保险的方式。当然,格式没有,光有内容。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-10 02:01 , Processed in 0.095386 second(s), 5 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表