掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2946|回复: 9

[求助] Word and phrase origins[2008版, 高清, 可复制]

[复制链接]
  • TA的每日心情
    开心
    2022-2-24 19:08
  • 签到天数: 40 天

    [LV.5]常住居民I

    发表于 2013-9-27 17:46:08 | 显示全部楼层 |阅读模式
    请各位看看这个http://www.baidu.com/link?url=YB ... igasAC20NXFW8hNMJda, 看看能否转换成mdx

    该用户从未签到

    发表于 2013-9-28 05:30:27 | 显示全部楼层
    dingyang 发表于 2013-9-27 23:06 ; [8 I4 s( D8 y0 W3 t, m
    PDF很难转成mdx的
    1 O# L: L: P' _# _
    {:5_227:}也不难,就是不管高手、低手,估计最低也得耗上两百个小时,才能把楼主链接里的pdf,做成能见人的mdx。# Y% }; l+ h1 N! P% _
    文本版的pdf,跟扫描版的pdf相比,也就省了OCR一步,距离能直接build为mdx的txt还有十万八千里呢。; m+ K- Q" U  i3 B( |6 p( F# B, [; K

    8 X: c8 ]0 ?9 J( D, oSelf-help is better than help from others; God helps those that help themselves.自己动手、丰衣足食啊。谁感兴趣谁动手啊。) F+ ~$ W/ b0 H: W* E
    提供几个思路
    8 |8 B- F3 @1 n1. pdf转html,这样pdf里词头的加粗可能得以保留,但是会有很多问题,因为pdf页面里内容是两栏,转成html后内容会出现错位的情况,最后让人心力交瘁,还不如一条一条复制粘贴。
    ' k, C8 T0 o3 J2 v9 R  A, ~2 l2. pdf转word,pdf的两栏可能就变成文本框了,这样操作起来稍微简单些,但是最后说不定会发现,还是不如一条一条复制粘贴。
    7 h' u( P# d3 q& M  p6 n8 p, T未实际操作,供参考。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2018-11-25 16:50:10 | 显示全部楼层
    本帖最后由 mikeee 于 2018-11-25 18:08 编辑
    4 Y* T2 X2 k- |: P- e# I9 R4 X5 S8 S3 \' P
    有一个办法应该可行:先用 Abbyy Finereader 转成 docx,docx再转成 htm。
    ) A+ W, e& D$ S
      _% c, H6 D" v2 K) q! [我机器里没装Finereader,用在线 https://finereaderonline.com 做了十页(每天在线只能OCR十页),效果不错:htm里的页头自动消失。两列变成了单列,粗体保留,好像原pdf换行时的 hyphen 都去掉了,但原pdf里跨页的段落好像没有合并。
    + `' v) [; [4 U4 H. H& _3 Q! J+ Z4 P. h  t5 _& }
    Chrome Devtools 大致看了看:css selector: p.Bodytext21 可定位所有的释义6 q- m4 `- E" z% k6 t; ~
    css selector:p.Bodytext21>span.Bodytext2Bold 可定位释义里的粗体4 @4 O% d7 c3 t5 P& R

    - G/ T1 d# _  F. u4 f贴不了图,发个 docx 和 htm 文件(仅10页) 百度盘链接: https://pan.baidu.com/s/15Qc4tQeWcePy7AhTJLiJXQ 提取码: encg / q3 i- l! D7 c* |( a9 x* S  L; D% l- i

    8 |# H2 K, m# o; T9 D# d9 H折腾了一阵,这个 python3 码处理上面说的 htm 得到的东西大致可以做成 mdx/ r. O; G  Y: F/ d* ~/ J# F! {
    1. '''word and phrase orgins test9 t$ J7 a# d' K& F7 h8 l
    2. '''
      ' z. ~8 E3 g! c
    3. from pyquery import PyQuery as pq
      ' N$ w2 {' q3 L4 O. z
    4. 6 @- `* K5 L1 T1 W
    5. file = r'WordandPhraseOrigins.htm'! {% y" o$ B4 f( t
    6. try:
      3 p7 b$ \3 {2 C7 @
    7.     html = open(file, 'rt', encoding='utf8').read()
      * F- W' ^% E) |# Q! v7 @( q
    8. except Exception as exc:2 m! l- U& W5 T  ?
    9.     print('error: {}. Trying gb2312...'.format(exc))$ i4 b; P8 S) w5 _0 D* i* C* Y
    10.     try:/ [7 X9 [5 M: y
    11.         html = open(file, 'rt', encoding='gb2312').read(); D* k7 K& k2 q0 V2 d& f
    12.         print('Looks good')3 P! R, ~# I) R2 R( v/ k. j
    13.     except Exception as exc:
      + Z. C+ |* W# |2 ]. }8 q$ F: K
    14.         SystemExit('error: {}. Giving up...'.format(exc))
      % V( e; g& W4 P5 o/ T; K+ g( a
    15. doc = pq(html)' c! M+ a. ~6 {7 Y

    16. 2 ~' Y. ^2 Y" X0 J; j# w3 j
    17. css_text = 'p.Bodytext21'6 |, I* e& ]: u4 o) f
    18. css_bold = 'p.Bodytext21>span.Bodytext2Bold': ]/ X" v& D! W5 n( i

    19. 2 u) r* e# O5 ]6 i  n  P7 _
    20. items = doc(css_text)
      8 f9 h1 o$ `8 q$ Q& ~  V0 V7 d
    21. 4 P" _& D7 o( q" h3 C& V- L
    22. text = doc(css_text).map(lambda idx, elm: pq(elm)(' p% |5 P( l- C7 l) v, F
    23.     'span.Bodytext2Bold').text() + ('(hw)\n' if pq(elm)('span.Bodytext2Bold').text() else '\n') + pq(elm)('span.Bodytext20').text())
      8 S% @) v8 p6 W8 R
    24. print('\n\n'.join(text[:60]))" p  o8 P( y1 O$ N% L* z
    复制代码
    上面码的输出大致这个样子:
    。。。
    ) u6 Y/ K$ G, W: R: P/ y, }A-Rod.(hw)
    3 {2 |4 N4 @  `. e0 ~People who have little or no knowledge of baseball might have trouble with these initials. They are short for Alex Rodriguez, the famous Yankee baseball star.3 h% e- K& _/ `) V# R

    + n3 A4 e; t+ W$ W; D6 L" Saround Cape Horn.(hw)
    % J$ q2 Q: p% k  W8 }. O# AAn expression once used in whaling communities to mean “being away on a whaling voyage.” One old poem went:/ K1 }! C* m" D8 m* T$ m- O
    / Y# w& ^  ~( E9 J+ O0 ]+ E. s
    . f! ?# \0 S  v* _9 T
    “I’ll tell your father, boys,” I cried To lads at play upon my lawn.. }5 W; P4 f# k) H' j7 L2 n

    ; B, V, ~7 K$ `  D! G$ A" D' \" I2 z
    They chorused back, “You’ll have to go Around Cape Horn.”: u4 z0 v. ^! h1 T& \- o# P. r
    8 y9 W' l4 c/ r4 Z& E
    around the horn.(hw)6 H4 X* Z( S! S+ t
    In the days of the tall ships any sailor who had sailed around Cape Horn was entitled to spit to windward; otherwise, it was a serious infraction of nautical rules of conduct. Thus, the permissible practice of spitting to windward was called Cape Horn isn’t so named because it is shaped like a horn. Captain Schouten, the Dutch navigator who first rounded it in 1616, named it after Hoorn, his birthplace in northern Holland.
    9 }8 |+ S. o- o8 u) r. N
    / V# Y  g  @% V. z- uarrant thief; knight errant.(hw)& F4 i  G- L4 s0 a
    was originally just a variation of nomadic or vagabond, the word best known in a knight who roamed the country performing good deeds. But from its persistent use in expressions such as an a thief who roamed the countryside holding up victims, came to mean thorough, downright, or out-) N- u5 f5 M' H2 }- |0 Y( ?
    。。。
    $ d: e' I2 p) m( K9 T; B
    顺便安利一下 pyquery,是不是完爆正则、bs4、lxml
      g0 a7 `7 Q/ ^6 W' d9 A
    ( u1 {) g, |& Z7 M' ?/ G, Y8 F& w& N9 g' p/ C, @9 u7 w
    % [; u5 U) n" v; h$ _1 e& p

    评分

    1

    查看全部评分

  • TA的每日心情

    2023-8-3 00:11
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-9-27 23:06:41 | 显示全部楼层
    PDF很难转成mdx的
  • TA的每日心情
    开心
    2019-9-3 09:48
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2013-9-29 17:38:36 来自手机 | 显示全部楼层
    pdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……
  • TA的每日心情
    开心
    2019-8-11 07:55
  • 签到天数: 606 天

    [LV.9]以坛为家II

    发表于 2013-9-29 20:56:28 | 显示全部楼层
    shbf 发表于 2013-9-29 17:38   i  [8 f! w, g6 a! ?/ {2 ]
    pdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……

    % w% {5 m1 z7 A& Y' S6 d期待新作品,辛苦了。
  • TA的每日心情
    开心
    2022-2-24 19:08
  • 签到天数: 40 天

    [LV.5]常住居民I

     楼主| 发表于 2013-10-1 14:30:14 | 显示全部楼层
    shbf 发表于 2013-9-29 17:38
    ) O9 u4 F3 y/ [* _7 x) t* Vpdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……

    & s) e2 Y1 l% Y+ k- g期待新作品,辛苦了。Many thanks! {:5_213:}
  • TA的每日心情
    开心
    2019-9-3 09:48
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2013-10-5 09:07:51 来自手机 | 显示全部楼层
    词典文本已导出并处理……基本无误,两栏问题完美解决。( Y( ^& }7 H! C, v) b  B8 g$ ]6 m: s

    9 ~+ k. C: b) A% ]* G主要遗留一些小缺点,可以自行纠正,1. 部分.,)后面少一个空格。2.部分年份数字和英文单词之间少一个空格。这两个问题很好解决的。) g+ s! v7 ?7 m, V5 r

    ' {5 z% M# @' }8 u6 L6 z& a当然要做成mdx,还需把关键词标记出来,我用{}标记到字母C, 剩下的需要对照pdf,工作量有点大,不做了。发上源文本,请有时间的网友处理吧!* ?% A% h* K1 X  |
    http://pan.baidu.com/share/link?shareid=1686563253&uk=3759036089
  • TA的每日心情
    奋斗
    2019-3-25 01:00
  • 签到天数: 99 天

    [LV.6]常住居民II

    发表于 2018-11-24 22:20:14 | 显示全部楼层
    感谢 shbf 兄的辛勤工作。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2018-12-27 13:39:42 | 显示全部楼层
    做成了 mdx 毛坯版,不完美,但可以用了,会找时间完善一下。15米,相当于免费的吧。9 m- \9 i0 q7 \# n- U  m$ u5 A
    下载mdx:https://www.pdawiki.com/forum/fo ... p;extra=#pid1035923- X7 W: y+ T6 c1 k4 A# z
    0 |& C( `$ L5 i! A- w
    欢迎制作校对精美版,可免费提供从 pdf 到 mdx 各环节的资料(文本,python程序等等)。详细步骤及相关资料可参考此贴 https://www.pdawiki.com/forum/fo ... &extra=page%3D1
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-9 17:06 , Processed in 0.078852 second(s), 14 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表