|
本帖最后由 eeshu 于 2020-8-3 13:01 编辑
$ O3 Q6 ]" C- \6 K0 K6 w- a3 g g) L. t3 g# n# J
谢谢大家。经过重新裁页和拼接再转存,已经成功提取所有文本。第一次失败估计是中间环节使用了一些打包工具造成的。3 {& K: y% B% s/ k1 B, Y
第二次全程只用了acrobat,没有问题了。
# l. ]7 v, Y) p. O- O
7 k) K0 M6 Y4 q) m" z; o1 D- D* n
- i( p' F! r+ v" Q- c& j' _试图将手上一本文字版pdf中的文本完整导出,无需保留排版和格式,只需留下文本内容即可。尝试acrobat直接存为txt,却发现文字和符号会错位。也尝试了好几个pdf to txt的软件,但是效果均不理想。请教论坛高手有什么手段可以解决吗?这是pdf原文截图:
# ]+ Q. s: [& Z" T
* s4 }" o0 S' @2 Y1 |9 \" ?8 {6 }3 V" V) W
! Z; i' U) [: x
J, W) m& n' Q5 N3 W( F7 ~下面则是转成txt后的效果:6 i4 r4 o/ f& c
g9 o( e# H3 H N" _* a9 A! |" |5 B; L/ n- J6 g! g1 ^, m$ K ~ J
9 G* q# T! o" o: v9 v
& h2 J8 k0 y# e" p6 B很明显,尽管我已将原始pdf切了图,文字内容仍然走样,但是直接复制pdf文字,内容是正确的,如下:
3 l* j% n0 h0 g' a f- \% M: r$ j! p; G7 h& ~
【按下葫芦瓢起来】 瓢:把葫芦& G; `+ B5 y) j, v2 p
锯成两半,去掉中间的瓤就成了: Z* F( R% J" i m2 r) A; W
瓢,可作舀水、舀米的用具。把葫4 O& ]( m$ b. o2 B K$ ]8 T( n1 K% w
芦按在水里,瓢又浮起来。意谓刚
3 L' H& M2 W% S& a/ p解决了一个问题,另一个问题又出. `+ U: w" H( [% Y( i
现了。鲍昌《庚子风云》:“瞅准了% S1 I% i6 v' y% \
时机就扯旗大闹,‘按下葫芦瓢起 e7 b( {- S1 Q9 E7 t, F3 ?" h
来’,休想让洋人、官府再有个安生& c( k0 V5 _1 D6 X
的日子了。”☆ [按下葫芦浮起瓢]* o0 _" j |, [+ ?; a- H" \
罗国士等《黑水魂》:“他挖空心思
% }' |' R. m" p$ B' @3 W3 g* B0 M编了几个理由,才好容易把他稳3 x7 D/ s0 I* o/ i! K ?$ [( r( o
住。没想到,按下葫芦浮起瓢,门. C. ]3 `* p, h9 j# P
口好像发大水,乱成一片。”1 N# n K8 U' Q" g
$ F1 E% w1 c& f% n
' d+ y! `/ @# N4 I' V% C( r; O- a不知哪位有这方面的经验?请教一二。先行谢过。
! S& d* b/ p( C( Z2 G1 n' i
9 |9 Q& o j& |; n2 W1 v: b$ q
`' V/ t1 O( p1 ^
5 x% _# P6 h _ X3 d |
|