掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sunsmile23

[工具] mdx制作必备:RegEx Dotext,可合并词条,提取信息等

  [复制链接]

该用户从未签到

发表于 2013-11-28 09:26:19 | 显示全部楼层
这个可以把词库任意组合啦!无敌呀!
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-11-28 12:36:48 | 显示全部楼层
    谢谢楼主分享,让我也试试吧。

    该用户从未签到

    发表于 2013-11-28 21:27:54 | 显示全部楼层
    几天没上,大神已更新了这么多次,辛苦了
    + w. I9 F5 D4 A9 X) u* l想要您的最新版,可以吗?

    该用户从未签到

    发表于 2013-11-29 12:49:07 | 显示全部楼层
    软件真好,对我帮助很大!希望老大分享,体验新版使用的快感!

    该用户从未签到

    发表于 2013-11-30 09:50:33 | 显示全部楼层
    本帖最后由 Oeasy 于 2013-11-30 10:02 编辑
    % I4 E7 a3 m) E2 d( Z3 ^% m, d  W; x! q; R, T/ S4 r. @; w

    0 \3 S1 |6 T# ?首先感谢楼主 ,提供了这么好的工具,谁用谁知道。节省了大量的时间,以前我都是用Excel来合并词条,很费劲,还有内容丢失的情况(因为Excel一个单元格里的内容有长度限制)。不过人心不足蛇吞象,我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。' [" A; D. v7 m! M( }

    % ?8 A7 z8 c) G0 o说明,下面我用到了三个有“名”的txt。
    * l( y3 I2 i2 S1 E3 Qsrc_1.txt,mdx源文件1;& |. [7 g  s3 _+ J) c
    src_2.txt,mdx源文件2;  _/ |6 z" Z0 w" e5 t. ]
    src_result.txt,最终(想)得到的txt,keywords为src_2.txt,条目内容为src_1.txt+src_2.txt对应条目下的内容。
    " Q/ J9 K# K; ~$ K- p% e========================================================================& e. x* ~$ y2 m! r; I
    有src_1.txt、src_2.txt这样两个mdx源文件,其中+ a( a! h* L. i0 {, _
    src_1.txt, b8 N0 i  ?5 R* t# x. j# z9 J
    A
    8 m3 l! L, }. |' q" E( ]6 f! M% VA_CONTENT_src_1
    ! `+ s( @; o6 w  B% U</>4 U' f8 X" H3 E
    B
    . Z, B' \9 q: l' }2 b6 F( N! Z! uB_CONTENT_src_1- \% A, L- b, l7 ?1 L
    </>6 o7 v# R, P+ s
    C1 Z* b2 ]: V6 l5 D% H
    C_CONTENT_src_1+ O. m2 T  |- W1 \
    </>  m6 ?2 r5 u( S8 ]: @3 i8 u. v
    D
    / s) }$ p# w# V* \# @, W2 L; d5 vD_CONTENT_src_1( m! X3 c- C% {
    </>
    * o6 ^% y* R: Y& h

    ) q; u9 v8 ]  T0 W; esrc_2.txt! A" {& c) S5 B* Q& F' Q3 d  z
    B* a' r# T7 ~2 Y! x1 R" R
    B_CONTENT_src_2- l; V" E! N" T+ P1 b" g
    </>' }' G9 K' d/ k& J
    D
    4 ^2 z8 _  C& d9 n3 F5 uD_CONTENT_src_2
    + v. \; p* ^6 C% o6 r4 W</>
    7 w( Q" h. \. J% h2 m& D3 k

    ) @, t& p' T9 v# i0 t我想得到这样一个mdx源文件8 g6 O& X' q% C; S
    src_result.txt* s# u/ S0 x; _3 x
    B
    5 b: e$ ?- Z; |' Q3 n5 m0 k5 DB_CONTENT_src_1
    ! ?' C8 `, d1 p5 `: g* J* hB_CONTENT_src_2$ `3 D" A9 V/ S& [: R& Z
    </># K$ o; L3 S, f$ X) e+ k2 V2 z* R' {, O9 K
    D5 U- o# |8 I6 D2 w: z' {" z, j
    D_CONTENT_src_14 y+ d9 G6 h# \( V
    D_CONTENT_src_2
    $ P$ H: W, Z6 P: B" _$ H0 n</>

    , h. w1 F) B! s  n2 h; N9 V0 |0 J$ k
    6 D8 G. R' _. ~2 y目前我的处理方法是,src_1.txt与src_2.txt合并(就是复制粘贴到一个文件里啦),然后利用Dotext的合并词条功能,得到& D, m) V8 {' ?6 G/ ?
    A
      N" J5 ]1 S6 f8 h6 d$ rA_CONTENT_src_1
    7 y  B8 Y5 m3 M1 q* G7 D5 h</>' V% P. B6 ?- e6 r! {* h1 q& b
    B7 R* M& `# E- |' }
    B_CONTENT_src_1. h) R8 G1 `- J# h
    B_CONTENT_src_2
    5 |- o9 B4 G- J; E5 A</>
    + a* D$ ^9 ?* L1 vC
    $ y" p7 g' E: ?. l4 u2 `C_CONTENT_src_17 p( ]: V2 S+ s: V5 ^
    </>
    2 h& x6 H' P/ _/ m* i; ED
    . W" P3 C* v# E& Y7 s& H: U/ \; cD_CONTENT_src_1
    ! D) {" z+ j) v3 w  BD_CONTENT_src_2- ^6 o+ w1 B7 v
    </>

    : |2 n' j; `! t$ o3 ^$ {然后利用src_2.txt里原有的一些标记性文字,删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。% p$ a, E' }* L
    这其实就是mdx源文件的合并、取差、筛选等等。
    : v( H5 J: H2 @========================================================================$ O" n; h' s0 U, M2 }
    说说这个idea有什么用。; {1 F3 |& e0 L& O8 U. Y
    一、
    8 S9 J8 q: z4 n- e5 w6 Csrc_2.txt可以是一个list性质的mdx,比如
      o* Z! X. e' m; n) Q  D
    生词1
    ! p! z" L( P0 [1 G, n随便什么内容1
    5 p. R& w. I& m</>
    8 K1 k4 c! _( f& X, D! N生词2
    6 o$ x4 K$ Z( j0 c随便什么内容2
    ! {' n* o6 x1 B7 h3 t% a0 U% y, ?$ C</>

    : f: u) d# Q( V8 F- p  J* `src_1.txt可以是某本双解词典。- G; V' o/ i9 K% p. a; u5 H
    6 F( M- R% w4 y$ w  v' Y5 w
    利用上面的操作,就从src_1.txt提取出了生词1、生词2的词条(内容),做成一个mdx,时常阅读、复习,可算是升级版本的“生词本”(单词本)。$ A: v% b) Z6 n5 B+ t
    二、
    / n; m$ H, r; k. hsrc_2.txt可以是一本小型的词典,比如
    8 ~3 J5 p) I3 T5 l. W外研社现代法汉汉法词典1 ?' |# F/ {7 ?* q- x' D
    src_1.txt则是chigre的【2013.05.27】法语发音库(121,310检索项, 实际90,626词条)
    $ U6 H" z  u- o% ?' w( bhttps://pdawiki.com/forum/thread-10685-1-1.html
    / J& m. A8 I8 s( ~: E. n# F3 {+ \, J  Z7 b* C- C( f7 `$ x) t
    利用上面的操作,src_result.txt就是有真人语音的《现代法汉汉法词典》了。  b$ ]* v- ^4 S* J' G( R
    ( g# c7 [; Z, g) G! H+ w
    三、- X  @4 L9 O/ s2 P5 }
    一、二的组合情况。
    $ l/ G$ g) c8 B- d& [/ A& K( R========================================================================) S2 p, B8 ?9 F  x2 c/ B( B' L
    说了这么多废话,跟Dotext什么关系呢?
    ( p# Y$ Q, M" a2 J我上面那一堆,核心就是想得到src_1.txt里keyword为B、D的条目,* G9 g( m# d$ A# A$ t) A/ D

    . v4 ]( g! ~  |5 y6 `; asrc_1.txt- K# Z3 {7 V( l, W3 }/ r
    A0 X$ K/ i, V9 Y" f. _, F
    A_CONTENT_src_1$ a, I3 X" g' _5 S+ B; q$ A  u. J
    </>2 J# X7 x  F6 {  c; f
    B
    $ t9 X5 W/ j" j; p/ M( ZB_CONTENT_src_1
    * r: L: h: ]+ _; y8 {. D</>
    5 l( Z, Y+ N* E5 h" Q( \7 ^C
    1 V' Z0 c4 O' R/ j, G- b* }C_CONTENT_src_1
    7 M+ N, \# b2 A1 G( v3 ~8 ]" Q</>
    ' S7 L* P  P7 v2 v$ b# D! `6 }: f1 ND
    ! S# g- e( _6 j: e% LD_CONTENT_src_1
    2 S# Q1 C, J: y4 @</>
      S& Z9 U& c9 T; w
    提取条件是
    : G1 g: C4 [3 p" C" t
    B6 B6 W( A! X. _+ a6 w; z/ b5 ?
    D
    6 j) q8 P9 O* \5 l2 E; b, ?
    提取结果
    8 ~% X* e+ u  Z, Y! M$ lsrc_1_extract.txt
    # u' ?0 o8 X+ v% [
    B3 [+ T% q$ L" Y- a' R3 A1 V9 E
    B_CONTENT_src_1
      e1 y% C8 w: R  H: A& B" Y- S</>) ]) F4 o' {! w; C
    D
    0 k2 E% N( V7 P( h( ^2 f. CD_CONTENT_src_1
    ' z4 M* a# k) w: E' K</>

    6 `' p( ^" {1 J0 A& U8 l* xBingo!: r7 z. P1 f- u8 N
    不知道能不能给RegEx Dotext加上这个功能,或者说已经可以实现,但是我没摸索到? 9 {* m. O) f* I# e' r& @
    再次感谢楼主。{:10_244:} 0 s" P+ Q# v, m, D) E5 Q  K3 p- r* d' `
    2 }0 }5 m  M$ g, m

    该用户从未签到

    发表于 2013-11-30 11:07:34 | 显示全部楼层
    谢谢老大。我想要新版。我的邮箱:[email protected]

    该用户从未签到

     楼主| 发表于 2013-11-30 13:37:17 | 显示全部楼层
    本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑
    , K1 ?/ I8 L8 c) E# f1 ~3 d- `: v& V9 T5 T
    mdx fan 们,O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人,我等若能有他一半,何愁解决不了自己的问题。
      K$ Y. [& o: w8 d# i" H( @4 Z" M# w) l* L1 x
    **所见略同。这种按需提取,正是dotext考虑的下一次升级。前面各版主要在于排错,以后可能主要在于添功能。/ p$ {, s- c! }* f
    正如你所言,懂英语、懂词典的,不懂技术;懂技术的不太懂这词典到底该怎么搞,怎么弄好用。恰好我几样都懂点(尽管只懂点皮毛),所以,知道想要什么

    该用户从未签到

    发表于 2013-11-30 20:18:03 | 显示全部楼层
    谢谢老大的工具。真的非常感谢!

    该用户从未签到

    发表于 2013-12-1 01:54:43 | 显示全部楼层
    正式我在找的软件,合并词条,去掉重复词条。
  • TA的每日心情

    2023-7-8 07:03
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2013-12-2 18:19:54 来自手机 | 显示全部楼层
    本帖最后由 majikun 于 2013-12-2 18:22 编辑
    ( v8 w5 I4 x) O- T6 B5 M# d  x' Y
    0 l0 S. z( F7 @$ ~支持老大正在制作词典,里面的重复太多了,特别需要老大的新版软件,可以发我的邮箱吗?[email protected]谢谢了

    该用户从未签到

    发表于 2013-12-2 18:37:02 | 显示全部楼层
    本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑
    / K. t: Z, m8 J, I
    7 o& u' t' K4 x* ~; k非常感谢楼主的分享!支持...E-mail:[email protected]

    该用户从未签到

    发表于 2013-12-3 11:04:24 | 显示全部楼层
    正在修改21世纪大英汉词典,这个词典释义比较广泛,例句丰富,但是需要词条合并一下。
    6 w3 m0 e! [8 W; e* }不知楼主能否共享下解压密码?谢过了~~* u- k( r# B* p3 b
    [email protected]
  • TA的每日心情
    开心
    2023-6-2 13:02
  • 签到天数: 634 天

    [LV.9]以坛为家II

    发表于 2013-12-3 15:39:34 | 显示全部楼层
    感谢楼主无私的奉献,请惠赐密码

    该用户从未签到

    发表于 2013-12-3 16:48:34 | 显示全部楼层
    sunsmile23大神你好,
    # S0 X2 A5 P% Y- _5 ~有个问题请教一下:
    1. Revere
      : z% ^% I4 y7 `) O9 r; d
    2. n. 里维尔(美国马萨诸塞州东部城市)
      # P0 ]# x% B8 J1 G6 W) h

    3. ( c) e$ P- C8 i& u9 Z! I  @4 t* I
    4. revere
      . R' T/ ^/ R; G" s+ |. I$ b1 {
    5. vt.尊敬,尊重;崇敬
      ; c- l. r9 e; L( I2 Z" p
    6. 8 ~, C1 Q# R9 q" Z- {
    7. revere3 q6 r- ?2 N3 p( n
    8. n.单词revers的变体
    复制代码
    这三个单词,我想合并后两者,前面的Revere作为独立的词条。( U% P8 N5 }/ S8 d. P
    但是我用RegEx Dotext 1.0β3转换后,这三个词条合并在了一起。; E* z6 e5 I. h3 j9 |% U4 c. ^

    # X+ Q! R7 ]( m) |3 x猜测可能是因为没有区分词条的大小写。7 M% y5 J& b5 [6 f8 H) D, N2 R
    请问应该如何操作呢?4 o2 ^: ]/ s" y! |! z) T
    ) `! m1 N0 N4 L# X$ t* P1 A
    谢谢!

    该用户从未签到

     楼主| 发表于 2013-12-3 20:25:58 来自手机 | 显示全部楼层
    确实不区分大小写。
    4 j9 e. F- b7 T  @, S% j5 X& W以后版中,是否区分,可交给用户去决定

    该用户从未签到

    发表于 2013-12-3 21:13:42 | 显示全部楼层
    能否增加一个功能:全部删除释义相同的词条?2 m- m& p4 P. o6 a" z
    应用背景:在合并时,有些完全相同的词条在N本词典中都有,并合后就会重复出现,因此 只想保留其中的一条即可。: H( ]2 x8 v  h7 J* r! Q
    如有可能,请提供,谢谢您 。

    该用户从未签到

    发表于 2013-12-7 23:00:11 | 显示全部楼层
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)& Y2 M6 N1 |) S1 Z  [! U3 m
    其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了,可惜精力不够了!
  • TA的每日心情
    慵懒
    18 小时前
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2013-12-9 20:40:02 | 显示全部楼层
    Hugh 发表于 2013-12-7 23:00 + S2 H/ \: s% t' s8 B' R2 e5 C- U
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)) Z$ t% b; c8 g8 }: I* F
    其 ...

    % A% _' u( g5 D赏心悦目的排版。

    该用户从未签到

    发表于 2013-12-11 22:49:30 | 显示全部楼层

    该用户从未签到

    发表于 2013-12-11 23:35:54 | 显示全部楼层
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没错啊?

    该用户从未签到

    发表于 2013-12-12 08:55:19 | 显示全部楼层
    抽取短语有没有人做过

    该用户从未签到

    发表于 2013-12-12 09:13:27 | 显示全部楼层
    老大的作品太好了,给个新版吧,谢谢!![email protected]

    该用户从未签到

     楼主| 发表于 2013-12-12 20:21:37 来自手机 | 显示全部楼层
    hyln9 发表于 2013-12-11 23:35
    8 f1 @7 h- N9 E前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没 ...
    - i. V( D9 |& \7 ?
    贴出来看看。
    0 p; r4 d5 C  d: t6 Z7 E# _3 a这个与perl兼容。

    该用户从未签到

     楼主| 发表于 2013-12-12 20:24:53 来自手机 | 显示全部楼层
    l126t 发表于 2013-12-12 08:55$ R5 t; n$ }$ [8 w0 k
    抽取短语有没有人做过
    2 F) H: x  i* y$ O
    帮助里有使用示范文件的例子。, z$ z3 ~4 Q; R  L2 ]9 {0 X4 h
    最关键的是找出短语特征。

    该用户从未签到

    发表于 2013-12-13 01:46:44 | 显示全部楼层
    sunsmile23 发表于 2013-12-12 20:21
    % q9 [- I' T6 ]7 ]" E贴出来看看。- T* Y6 H2 F1 Z: N( M7 N! u
    这个与perl兼容。
    $ j+ o. [; I7 |0 ~$ D
    实在抱歉,我后来吧表达式缩短了一些就没再报错,之前的没有记录下来。不过还有一个疑问,就是转出来的文件会有这样的:<a> 我都手工改成了 </a>
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-4 18:44 , Processed in 0.050411 second(s), 5 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表