掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2945|回复: 9

[求助] Word and phrase origins[2008版, 高清, 可复制]

[复制链接]
  • TA的每日心情
    开心
    2022-2-24 19:08
  • 签到天数: 40 天

    [LV.5]常住居民I

    发表于 2013-9-27 17:46:08 | 显示全部楼层 |阅读模式
    请各位看看这个http://www.baidu.com/link?url=YB ... igasAC20NXFW8hNMJda, 看看能否转换成mdx

    该用户从未签到

    发表于 2013-9-28 05:30:27 | 显示全部楼层
    dingyang 发表于 2013-9-27 23:06   Q! O5 f) C- q7 x! ?
    PDF很难转成mdx的
    6 w$ s* s. K3 L  T& E7 M$ |( C
    {:5_227:}也不难,就是不管高手、低手,估计最低也得耗上两百个小时,才能把楼主链接里的pdf,做成能见人的mdx。
    + m% F/ ]& ^" @1 @) o8 O: G文本版的pdf,跟扫描版的pdf相比,也就省了OCR一步,距离能直接build为mdx的txt还有十万八千里呢。
    9 {: q/ e2 X; M7 T$ I3 F
    $ M& T# E+ p' i* t! eSelf-help is better than help from others; God helps those that help themselves.自己动手、丰衣足食啊。谁感兴趣谁动手啊。* a# H$ `. c# g5 Y. A$ ]( g
    提供几个思路
    ! C6 E* @+ }( c- L$ {1. pdf转html,这样pdf里词头的加粗可能得以保留,但是会有很多问题,因为pdf页面里内容是两栏,转成html后内容会出现错位的情况,最后让人心力交瘁,还不如一条一条复制粘贴。
    - V# u4 c7 @7 E, q: y2. pdf转word,pdf的两栏可能就变成文本框了,这样操作起来稍微简单些,但是最后说不定会发现,还是不如一条一条复制粘贴。
    6 N- v% L( ]0 x' S6 M. B* t未实际操作,供参考。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2018-11-25 16:50:10 | 显示全部楼层
    本帖最后由 mikeee 于 2018-11-25 18:08 编辑 : c& j: x7 l" T+ R

    . h) e9 p( Q9 s% Z# A$ A有一个办法应该可行:先用 Abbyy Finereader 转成 docx,docx再转成 htm。* N5 {. K8 A/ h! B  f
    - p( s* t1 i# V* y
    我机器里没装Finereader,用在线 https://finereaderonline.com 做了十页(每天在线只能OCR十页),效果不错:htm里的页头自动消失。两列变成了单列,粗体保留,好像原pdf换行时的 hyphen 都去掉了,但原pdf里跨页的段落好像没有合并。
    ' M' @' b$ O" c1 u
    + W/ ^- i  d, o6 {  \Chrome Devtools 大致看了看:css selector: p.Bodytext21 可定位所有的释义
    1 Q* O% p6 v. h/ g' q, _5 y$ ?8 ~css selector:p.Bodytext21>span.Bodytext2Bold 可定位释义里的粗体1 l$ B( T9 e2 U8 J

    & m3 R* J! u% O4 T' P贴不了图,发个 docx 和 htm 文件(仅10页) 百度盘链接: https://pan.baidu.com/s/15Qc4tQeWcePy7AhTJLiJXQ 提取码: encg
    ( x1 [" ^/ [. C6 c: b
    0 n% {8 F* Q1 C% I+ ~折腾了一阵,这个 python3 码处理上面说的 htm 得到的东西大致可以做成 mdx9 ?) B( g' S5 d4 ^
    1. '''word and phrase orgins test( Q: C8 n$ ?1 l* C& C0 B
    2. '''
      8 ~" \+ M( F# c6 a5 t% U- {
    3. from pyquery import PyQuery as pq) o8 |8 U5 h: x
    4. 6 ?* p  X  L- A% Z  o
    5. file = r'WordandPhraseOrigins.htm'
      9 ]: X7 _# d  I. c8 {4 j9 k8 K, {5 q
    6. try:
      9 M1 e/ u* y7 W3 u" C( O
    7.     html = open(file, 'rt', encoding='utf8').read()
      9 D. N8 {2 R" M: M4 r5 `
    8. except Exception as exc:; v% W- q- u8 B4 Y; }6 q! X7 S
    9.     print('error: {}. Trying gb2312...'.format(exc)); [6 R# L% |5 W. \: Y& V. k
    10.     try:
      8 z8 S/ B, C. Z0 |+ T2 z/ m2 O
    11.         html = open(file, 'rt', encoding='gb2312').read()6 Z% f3 o% [) E4 _" N: o
    12.         print('Looks good')3 P( G4 d) e! k! [, ]2 [
    13.     except Exception as exc:) m9 |% Q3 F$ G: V
    14.         SystemExit('error: {}. Giving up...'.format(exc))
      ) _. @8 T4 \+ l( a. K0 |
    15. doc = pq(html); f. t/ p7 [* I7 Q

    16. ' [2 W. H# R9 R. z4 ?3 F' M
    17. css_text = 'p.Bodytext21'
      - b" F# x  l* W
    18. css_bold = 'p.Bodytext21>span.Bodytext2Bold'
      2 E/ q( ]- V: {/ k- a
    19. 6 q! j2 ?' a( B& y$ Z5 K% f
    20. items = doc(css_text): i4 f! p5 D  ^( ]
    21. : Y3 _) S/ D! M& q/ O+ T
    22. text = doc(css_text).map(lambda idx, elm: pq(elm)(; o7 v4 v3 B+ M" M
    23.     'span.Bodytext2Bold').text() + ('(hw)\n' if pq(elm)('span.Bodytext2Bold').text() else '\n') + pq(elm)('span.Bodytext20').text())
      6 C. c4 y. s& _: E9 O. ^# v/ i& d) ~4 N2 |
    24. print('\n\n'.join(text[:60]))! b1 S& Z5 O& N% y# ]& T! K
    复制代码
    上面码的输出大致这个样子:
    。。。
    " V* D; w. @2 x! gA-Rod.(hw)
    : S6 B; V6 L/ s, F# hPeople who have little or no knowledge of baseball might have trouble with these initials. They are short for Alex Rodriguez, the famous Yankee baseball star.
    1 n' v/ U( v! l, o2 E: x8 v' T0 ]8 c) |& a/ U2 J, B" L0 m( |; S: k4 _7 `8 @
    around Cape Horn.(hw)
    , I" V* p5 q' u% \0 ~An expression once used in whaling communities to mean “being away on a whaling voyage.” One old poem went:
    - P9 S$ z& \% ]& P, W
    3 V3 O- D$ e7 b8 d% s: d1 G- p
    / B  F# y$ _) N, {“I’ll tell your father, boys,” I cried To lads at play upon my lawn.
    3 ?  S. A! m5 }, S1 q) m- P8 X  ?8 A- L$ `- G, i1 p

    . F7 f" d* k/ U' ~/ W/ PThey chorused back, “You’ll have to go Around Cape Horn.”) ]- e. |" s) G1 d

    - ?2 q) u2 ]9 p/ laround the horn.(hw). t$ D# k8 {" G% ^, \
    In the days of the tall ships any sailor who had sailed around Cape Horn was entitled to spit to windward; otherwise, it was a serious infraction of nautical rules of conduct. Thus, the permissible practice of spitting to windward was called Cape Horn isn’t so named because it is shaped like a horn. Captain Schouten, the Dutch navigator who first rounded it in 1616, named it after Hoorn, his birthplace in northern Holland.# j( F; x0 J# k5 I

    9 ~% U  W: L5 B. v7 Oarrant thief; knight errant.(hw)7 `: Z6 h6 ^2 u: k$ y5 z7 m2 N
    was originally just a variation of nomadic or vagabond, the word best known in a knight who roamed the country performing good deeds. But from its persistent use in expressions such as an a thief who roamed the countryside holding up victims, came to mean thorough, downright, or out-/ k' e5 K; S. Q5 @  ?$ i) }, B
    。。。
    : Y+ Y2 @! Q0 H/ g
    顺便安利一下 pyquery,是不是完爆正则、bs4、lxml
    ; g& v3 m  q; Z$ o& ]6 V8 Z; H2 Y4 e4 B+ l, e

    ' M( K7 z3 @( I$ P! J* Z/ o) w" b6 V  A* n

    评分

    1

    查看全部评分

  • TA的每日心情

    2023-8-3 00:11
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-9-27 23:06:41 | 显示全部楼层
    PDF很难转成mdx的
  • TA的每日心情
    开心
    2019-9-3 09:48
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2013-9-29 17:38:36 来自手机 | 显示全部楼层
    pdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……
  • TA的每日心情
    开心
    2019-8-11 07:55
  • 签到天数: 606 天

    [LV.9]以坛为家II

    发表于 2013-9-29 20:56:28 | 显示全部楼层
    shbf 发表于 2013-9-29 17:38 & J% d# N0 ~& q* w' u: d7 b# J
    pdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……

    ) i! x7 n0 t1 C. x1 A7 q/ ]; H期待新作品,辛苦了。
  • TA的每日心情
    开心
    2022-2-24 19:08
  • 签到天数: 40 天

    [LV.5]常住居民I

     楼主| 发表于 2013-10-1 14:30:14 | 显示全部楼层
    shbf 发表于 2013-9-29 17:38
    & x) w8 {2 _" ~3 N( V3 Rpdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……

    ' \3 e0 Z% O$ N# P. Q3 J/ Y8 C期待新作品,辛苦了。Many thanks! {:5_213:}
  • TA的每日心情
    开心
    2019-9-3 09:48
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2013-10-5 09:07:51 来自手机 | 显示全部楼层
    词典文本已导出并处理……基本无误,两栏问题完美解决。$ m' C( L. u  Y

    . v9 _: P, r& O2 i, f) w' d& i3 ]4 I主要遗留一些小缺点,可以自行纠正,1. 部分.,)后面少一个空格。2.部分年份数字和英文单词之间少一个空格。这两个问题很好解决的。* h0 k) X4 ~8 B5 p# ^, ]

    " f" G# [4 W; S; k5 |/ K当然要做成mdx,还需把关键词标记出来,我用{}标记到字母C, 剩下的需要对照pdf,工作量有点大,不做了。发上源文本,请有时间的网友处理吧!
    ! p& ^: R1 v& nhttp://pan.baidu.com/share/link?shareid=1686563253&uk=3759036089
  • TA的每日心情
    奋斗
    2019-3-25 01:00
  • 签到天数: 99 天

    [LV.6]常住居民II

    发表于 2018-11-24 22:20:14 | 显示全部楼层
    感谢 shbf 兄的辛勤工作。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2018-12-27 13:39:42 | 显示全部楼层
    做成了 mdx 毛坯版,不完美,但可以用了,会找时间完善一下。15米,相当于免费的吧。; k- }- }9 I" P' d- |7 J" S- h
    下载mdx:https://www.pdawiki.com/forum/fo ... p;extra=#pid1035923) R4 N' \7 d8 q# V$ D
    0 C& B. T6 o9 w/ ^4 m: ^
    欢迎制作校对精美版,可免费提供从 pdf 到 mdx 各环节的资料(文本,python程序等等)。详细步骤及相关资料可参考此贴 https://www.pdawiki.com/forum/fo ... &extra=page%3D1
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-9 14:07 , Processed in 0.059166 second(s), 14 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表