掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[词典校勘] 【精校人员募集】World Book Dictionary, 2015 勘误专帖

[复制链接]

该用户从未签到

 楼主| 发表于 2015-11-7 15:28:41 | 显示全部楼层
mitkyg 发表于 2015-11-7 15:13/ Y; \0 {4 @8 W
我刚截了24副图,对比一下,你用工具可以尝试下
5 l! F% Q3 b8 U' ~3 j- o/ t' f1 F6 Q
http://pan.baidu.com/s/1pJ5WYzp

1 Y0 @/ e0 H& h% N2 r+ `辛苦!
9 ^0 n2 J& A& W& ^% L7 q* b这样的图片质量,用工具处理完全没有任何问题8 K1 r& R+ t8 s% u8 f: m) [
要的就是这个效果

该用户从未签到

发表于 2015-11-7 15:54:55 | 显示全部楼层
bt4baidu 发表于 2015-11-7 15:287 D" N8 a( p; H: x2 T% n) Y/ h
辛苦!6 V) T8 v( [  a1 k7 }- h7 |, d
这样的图片质量,用工具处理完全没有任何问题8 i3 C' n/ d3 q  w
要的就是这个效果

+ C/ n6 |- `8 emore than 3,000 illustrations
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2015-11-7 16:29:41 | 显示全部楼层
    认领音标文字错乱,121-172条
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-11-7 18:15:26 | 显示全部楼层
    BT大,图片文本化有585条?我看correct.xls里面只有几条啊

    该用户从未签到

     楼主| 发表于 2015-11-7 18:22:13 | 显示全部楼层
    duancj 发表于 2015-11-7 16:29) T0 a9 i. u( w& T
    认领音标文字错乱,121-172条

    ' L. }: |' C* [. D) W: bOK,已标注

    该用户从未签到

     楼主| 发表于 2015-11-7 18:28:10 | 显示全部楼层
    mitkyg 发表于 2015-11-7 15:54
    , U7 t+ N! r9 gmore than 3,000 illustrations
    % b$ W! H: f+ }, G& y5 Y2 D. A& d
    这么多
    , J: S$ w+ P8 t9 C" K2200页每页至少一张图?
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    发表于 2015-11-7 18:34:16 | 显示全部楼层
    认领
    " f7 a% g7 S! c) O0 b   5、图片文本化
    ) @, Y0 Y; [+ I$ U126至200* F, t! U( U' n0 S* \
    或分配后剩余图片的任意五十页以上# t/ ]* n( v. g1 D

    : m( `8 O+ E( q! r7 ~6 m
    , j6 \$ d: ?" o/ j有OCR经验
  • TA的每日心情
    难过
    2024-5-6 14:10
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    发表于 2015-11-7 18:47:52 | 显示全部楼层
    本帖最后由 dhs1001 于 2015-11-7 18:57 编辑
    + k) O+ r9 U/ `$ s7 L1 o
    empenguin20 发表于 2015-11-7 04:05) u$ n+ p0 K9 q6 w9 Q, ^
    鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。! Y8 x- K6 M2 @4 b3 G1 Y' Y
    我想问下楼主,音标为何 ...

    1 M6 T: u  `0 I$ ^) B0 a" ~) U3 E- {* Q8 b2 z: L7 ^
    经过和6 q9 E! t# R  w# L9 B/ J
    https://www.pdawiki.com/forum/fo ... hread&tid=14587下载的pdf扫描版书对比后& t2 j) v# c% R( O  s, `3 q; A
    发现文件名为 tbdot*的并不是代表t + b with dot。
    / @3 \$ o! H" @4 x% N9 B  W而是代表ṭ,应该代表t下面带点。
    " U/ N5 h" c) Y* Y5 P3 s; Q7 H* Y1 u/ p" x& W7 e( X
    具体可以参考以下截图:8 c7 n, y6 ]  p  B' M
    文档14行如下:* R( Q/ T* C  H( J# L/ U
    1 A0 n! l# b) Z, G( J# M4 Z$ F' l
    / c. {9 }! f3 ^  C+ [* e6 L% H
    GD中截图如下:! r5 p( N4 E  |- O
    6 \( m. c" p% M7 L* D
      F: t- R( I  P
    pdf中截图如下:) k# W% H5 c8 O( o( p; {

    8 `* Y8 }) m/ I+ W8 ~4 e7 p: s* D' ]: \" s% g3 R
    所以bdot代表的应该是在前面一个字母下加一个点。1 e& R& g) t4 ]# y  ^, e$ Q

    ' K, a% t! Z* J! ~! J% J' v4 J# u! |我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。* g3 _- e- _& C# l' j- P% g* Y8 D$ H

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:01:51 | 显示全部楼层
    已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray0 k2 c7 Q% L: ]6 M
    3 h) ~/ Z! n- n/ {+ h6 W  B3 S0 h

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:31:48 | 显示全部楼层
    本帖最后由 css 于 2015-11-7 20:08 编辑 . a# Q( v0 y9 Z! S5 Q* H/ d8 T( \. q

    # k, I4 V1 Y  ^) z$ M- @建议保留idotmacr作为图片形式存在。 原因如下。
    6 \5 d" Q  }9 l! J目前有三种可以做到的方案:- l2 a0 }, @9 J6 ~  K* x+ ^
    1. i̅      //此种方案, 头顶是Overline, 故不可取。
    , v2 b& g+ f. p6 l: S( y2. ī (见Fuxy526 chiasma条目文本化结果)  //此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png
    , |. i" `4 o- O# a# a( o# h9 u3. ī  //同上。
    6 V  }9 x9 ~1 Z1 Q1 y
    $ [+ S/ o1 O2 z4 U: o7 W4 p, w另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。
    - s6 V+ l" f& T  ]. _, o. }. b0 e5 |% [: w6 W3 B9 `$ ]; \
    试比较:

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2015-11-7 22:07:01 | 显示全部楼层
    dictionaryfan 发表于 2015-11-7 18:34- z% p. a" b* m6 h
    认领
    7 R1 P' Y* a$ w8 k   5、图片文本化( {9 U; z: P1 ?
    126至200
    & \0 I/ n# ^3 @6 I! I. ~; ]
    都分配完了
    & y8 C1 Q0 r! F0 f% i等着后面校对的时候再参加

    该用户从未签到

     楼主| 发表于 2015-11-7 22:09:08 | 显示全部楼层
    css 发表于 2015-11-7 19:31- A+ d% @1 I( y1 ~
    建议保留idotmacr作为图片形式存在。 原因如下。2 x/ G- o. d+ {
    目前有三种可以做到的方案:  w( I5 o  {+ g! i; z
    1. i̅      //此种方 ...
    5 v5 g9 k  x' v: E
    & c: e  O' Z  h
    这个i是比较头痛,用HTML实体也拼不出来4 q# }$ V+ i+ G8 m: o/ j
    e倒是拼得挺像了/ ^' Q8 W: {4 A# ^$ W1 f. @
    本人也尽量争取和原书完全一致9 K) H: s6 H) _+ A8 a$ a

    0 _5 u5 l  Y/ w/ M  ~
    8 D# g# x# h* X* B( w; p0 j% |

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 22:48:37 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 22:51 编辑 * r( S4 ~2 f7 `9 V! y  O" C& t2 m
    bt4baidu 发表于 2015-11-7 22:09
    9 f$ Y: S1 `. t; X# G这个i是比较头痛,用HTML实体也拼不出来
    ; f; m( P3 A4 z! Ze倒是拼得挺像了) x" N* X/ s: ?+ e
    本人也尽量争取和原书完全一致

    $ _/ D9 _' z: L/ h- |$ e
    3 ]- j* n( F4 S8 j  T- Z8 O" f5 v* N參考b大你的方式
    ; E$ A- z+ X- U# t# e# r; O6 f, C7 a
    http://www.fileformat.info/info/unicode/char/0130/index.htm; B/ m! E! c+ L3 C) v
    http://www.fileformat.info/info/unicode/char/304/index.htm* W: }( T% d) w3 v  s
    & n/ H" C7 q. ^- c" F
    & #304; & #772;' Z6 L$ `' k5 m% U! ]
    1 B: v4 i2 Z- j: K& d
    İ̄ 還是可以合出來  目前快完工了
    * A' |% `. c7 i# p. x5 }, ~* w  E6 ~0 R
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 23:28:11 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 23:32 编辑 ( z1 D. _/ Y9 H7 @

    5 _1 ~6 X* ^& U, j  j链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f9 p, c$ M: d; H9 |) Y# V
    # |$ z) ?2 [2 B  u1 _" S
    編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上* \$ ]- j$ @4 G2 ]/ P

    6 f; o6 c; R! i6 x8 l$ a& pidotmacron İ̄ 使用下面兩個組合+ _4 k, i$ I  @' h. `+ @
    & #304; & #772;
    1 ^1 O4 e# }# M! b/ I5 q
    6 n* N: |% G/ [7 [eacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別' L' x. A0 o8 @8 W( ]
    & #x00E9; & #x304;

    该用户从未签到

     楼主| 发表于 2015-11-8 00:19:40 | 显示全部楼层
    qazqwe 发表于 2015-11-7 23:28
    / R5 T6 v- F' [链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    " ^" U; C  Q+ t3 m
    1 X4 h/ [$ e. g! ~# M編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...
    6 p9 E% L7 U$ j, S
    i用& #0456;和& #0304;拼似乎效果更好

    该用户从未签到

    发表于 2015-11-8 01:11:22 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43
    5 K! c7 G. G7 ?  J把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。& i9 h- H% {$ o
    从empen ...
    $ T$ w5 y1 a/ g, [6 c
    多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:11:34 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43: c5 R3 g2 N2 v9 c
    把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    4 N) N& D) K6 }3 e# X' R& m! g; ^* S% ?从empen ...

    , _8 r% K3 W  K  g多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:27:46 | 显示全部楼层
    qazqwe 发表于 2015-11-7 11:52, b9 X% O2 m) d& C: r
    原本的範例裡面是用ḗ 取代e DOT MACRON, + F8 c3 q2 V+ V% r: C$ ?
    有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...
    7 d  f; X) U4 i' r4 }' C5 @
    我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。

    该用户从未签到

    发表于 2015-11-8 08:57:08 | 显示全部楼层
    本帖最后由 mitkyg 于 2015-11-8 10:20 编辑
    % p0 T( T: p1 @, |. [
    bt4baidu 发表于 2015-11-7 18:28
    # x' ~4 u% x8 ^  t这么多
    & L$ E& s3 }/ X7 l6 }2200页每页至少一张图?
    ( z3 _8 ^4 H- Y. H/ i& `
      p, o0 x' ]4 W$ _/ e' M
      已经截了300张了,原来美图秀秀有批处理功能 ! n) t2 M5 m# l
    ! D! Z1 B: u% w3 b6 Y+ m" i
    问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    点评

    可继续处理多余的空白,进一步缩减体积  发表于 2015-11-9 23:17

    该用户从未签到

    发表于 2015-11-8 10:48:03 | 显示全部楼层
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    该用户从未签到

     楼主| 发表于 2015-11-8 11:49:18 | 显示全部楼层
    mitkyg 发表于 2015-11-8 08:57* E$ q2 G! g% Q2 Q- K7 D' g+ t  g
    已经截了300张了,原来美图秀秀有批处理功能
      {5 `6 W* k  V
    " u9 d7 J2 y) L/ {% N问下这种情况怎么处理呢:同一词 ...
    9 w5 E  t) g4 ~. {
    那真是极好的,科学技术是第一生产力6 z  F# m) O; s0 ^

    * f$ |& j  P; F9 S2 V& j7 }这种情况直接后面加数字呗,_1,_2。。。
    $ i* P' a1 n4 }  `* l; C* A如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长

    该用户从未签到

     楼主| 发表于 2015-11-8 11:50:01 | 显示全部楼层
    zhlpen 发表于 2015-11-8 10:48
    , M+ S" n: S) c" p- B7 |" P看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    ! L6 z% o8 U, _9 j  B* V& c等着做正式发布以后的校对吧

    该用户从未签到

     楼主| 发表于 2015-11-8 12:32:53 | 显示全部楼层
    本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑 , }4 b+ @9 u/ ]- {: f6 b9 c8 |
    1 [: D3 V9 f6 Y: ^. m9 t. b
    і̄=& #x0456;& #x0304;! A4 w/ L+ x5 a) ?/ V3 E

    $ H* ^( ?9 }4 M* s! l: F9 {5 O4 y% e! [0 w+ {+ P4 j: A

    " j8 m. Z- Q9 S1 K* h% s' r& ?5 Q

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-8 13:42:44 来自手机 | 显示全部楼层
    本帖最后由 houbible 于 2015-11-8 13:48 编辑
    ! v3 J. P; t6 `. B# d
    ( a6 t& f& b# i$ c. `1 i- ]' ^" B+ C感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!

    该用户从未签到

     楼主| 发表于 2015-11-8 13:56:31 | 显示全部楼层
    houbible 发表于 2015-11-8 13:42
    * u) n  B. r. s) J- m6 v感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...

    # g0 N6 N; m. P% B$ d8 Z这回你来晚啦,没你的份了; o8 D+ q2 C# r6 V
    等着后面做校对吧
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-23 22:53 , Processed in 0.023298 second(s), 17 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表