掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sunsmile23

[工具] mdx制作必备:RegEx Dotext,可合并词条,提取信息等

  [复制链接]

该用户从未签到

发表于 2013-11-28 09:26:19 | 显示全部楼层
这个可以把词库任意组合啦!无敌呀!
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-11-28 12:36:48 | 显示全部楼层
    谢谢楼主分享,让我也试试吧。

    该用户从未签到

    发表于 2013-11-28 21:27:54 | 显示全部楼层
    几天没上,大神已更新了这么多次,辛苦了
    : d+ s# w- z" `6 S想要您的最新版,可以吗?

    该用户从未签到

    发表于 2013-11-29 12:49:07 | 显示全部楼层
    软件真好,对我帮助很大!希望老大分享,体验新版使用的快感!

    该用户从未签到

    发表于 2013-11-30 09:50:33 | 显示全部楼层
    本帖最后由 Oeasy 于 2013-11-30 10:02 编辑
      Q7 j. Q9 k- Q  I+ b$ c& }8 i  `; @3 Z5 B# _( c

    4 K8 `1 W1 l7 I首先感谢楼主 ,提供了这么好的工具,谁用谁知道。节省了大量的时间,以前我都是用Excel来合并词条,很费劲,还有内容丢失的情况(因为Excel一个单元格里的内容有长度限制)。不过人心不足蛇吞象,我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。
    ) n# e7 E+ Z) q7 g& @* R
    ( J# K, Q. t7 E/ R/ U0 S说明,下面我用到了三个有“名”的txt。8 C- a! w) a+ U; O4 @1 n+ v0 B
    src_1.txt,mdx源文件1;9 E) C1 a9 e3 M) H4 s4 w0 R7 X
    src_2.txt,mdx源文件2;
    : l7 y1 y. R% ~src_result.txt,最终(想)得到的txt,keywords为src_2.txt,条目内容为src_1.txt+src_2.txt对应条目下的内容。3 k' T7 \0 g1 |/ r* X2 P. |9 R
    ========================================================================
      {/ B0 ?& G9 X, j3 C, i有src_1.txt、src_2.txt这样两个mdx源文件,其中
    - M4 H' U# ?( \$ V$ ?src_1.txt
    $ ?4 W2 ?8 K/ e" L! ^
    A
    & B/ \5 g2 g5 p( cA_CONTENT_src_1! T3 C6 ]. E2 ~; G
    </>
    % [2 I4 y7 w: L0 l, e4 JB, u8 B  k- M! v% i, ^" q
    B_CONTENT_src_1
    ) [: N1 B" n% E1 b& ?/ O! o( U6 r9 n</>) G. ^% h4 _7 ~+ @2 l0 y9 }
    C
    0 H9 [6 w5 B% l1 N5 P- a. LC_CONTENT_src_1
    ( @" ~& Z1 O4 j5 W</>1 Y8 t5 ~" D1 Z* X1 l
    D, O" p* r( A/ ]4 @$ l8 Q5 y( Q8 S9 A
    D_CONTENT_src_1- y( @9 Q/ T. b+ g& u! m3 y. U; o
    </>

    # z$ G" L" d; ]- Y6 U! a+ R. M+ Z  Z) J$ L& c
    src_2.txt
    / V: U, o' ?: Q0 i7 E" Z5 F4 [
    B9 ?. V- g( ]' l" F) S0 e( m
    B_CONTENT_src_21 k3 z) R$ F4 G, I; z2 i5 t
    </>
    + e/ z) H  _, ^# N& XD
    ! i0 n- v& I+ {5 N9 BD_CONTENT_src_2
    8 M. Z) L3 @9 q</>

    6 t' [. e- n& K* z3 _1 A. A' m* A4 J# z1 V
    我想得到这样一个mdx源文件" Z- F( l$ ^: x# w5 D# S
    src_result.txt: r9 R& G5 X4 s" V) ~2 C8 G
    B
    & z7 H% R; V6 ?$ k5 g! wB_CONTENT_src_1
    6 w: h' k1 `* c5 j7 f# nB_CONTENT_src_21 e( Y. k! \0 h* M6 x
    </>4 A+ A  z4 q$ V0 }. e
    D7 J; H; L+ ~3 L$ d) X
    D_CONTENT_src_1
    : G' m# b; h% l$ a- x8 OD_CONTENT_src_2
    9 N/ l0 G6 V, T( X& B; W</>
    / J; T: k9 e1 r+ ~3 n6 T7 c& r% o
    9 K4 B) E. X5 `- M# w, i5 W% n
    目前我的处理方法是,src_1.txt与src_2.txt合并(就是复制粘贴到一个文件里啦),然后利用Dotext的合并词条功能,得到5 L# Q) o# n4 \* t
    A( ]: {9 S/ [3 G# b  J
    A_CONTENT_src_1' C0 p8 U8 b, R) V7 A
    </>
    ! D4 P5 g. t! LB
    + j* W: n9 V. |+ e. i- ?$ aB_CONTENT_src_1
    , f2 Y% L7 l/ Q" _" r- bB_CONTENT_src_2; E1 |  f2 w1 g& ^; k: q; w2 U
    </>
    ) u/ c& i+ g3 G  Y+ cC/ i+ ]6 ?! b  D" z
    C_CONTENT_src_1, u9 _# T4 c0 a0 C  Y. w  O$ ^6 @3 S
    </>
    & V. i  X. y0 B; ]6 T, ?2 HD
    # e7 ]& n$ ~6 g# B- S9 P" yD_CONTENT_src_1" D5 K8 K. n; J( r5 C6 F; B8 c
    D_CONTENT_src_26 a! r4 S  D- c- O( w
    </>
    % O5 t  `2 x: l2 s, @+ o
    然后利用src_2.txt里原有的一些标记性文字,删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。- A( k! x& r6 m3 d; s
    这其实就是mdx源文件的合并、取差、筛选等等。
    & P  ~" P2 C0 V, ~$ \6 P" ^========================================================================
    * K2 H& E/ L1 C  K2 ]; \( ?* e% X6 b说说这个idea有什么用。
    # x& g+ t7 M2 N4 W9 c% {+ f一、/ u: T. d% b' u
    src_2.txt可以是一个list性质的mdx,比如
    ; E7 O* S- X  O
    生词19 A0 \+ A% K! r$ h) k
    随便什么内容15 t1 Y) R% R) L* {# u# T( B0 a
    </>
    & ~1 x/ e5 {$ k. ^; P% f2 p* `生词2
    ( x8 y$ D4 p6 k0 b随便什么内容2
    % P8 B4 t+ N% ~, Q4 h</>

    6 J# T$ n8 E1 L) c" ~, g% W; Asrc_1.txt可以是某本双解词典。- N" v8 d, I. ]/ Q. c5 M7 v: |, \
    ) J  ]2 A" d- C+ v# i
    利用上面的操作,就从src_1.txt提取出了生词1、生词2的词条(内容),做成一个mdx,时常阅读、复习,可算是升级版本的“生词本”(单词本)。
    2 G; F' d0 B! ~9 H  K二、
    ) t0 M: z( M+ N- ^src_2.txt可以是一本小型的词典,比如" a* v9 ]" |2 f& A6 j) i1 h1 @
    外研社现代法汉汉法词典# B+ l1 D8 R+ \+ i  N
    src_1.txt则是chigre的【2013.05.27】法语发音库(121,310检索项, 实际90,626词条)
    # e( x0 |2 b" u' [5 Jhttps://pdawiki.com/forum/thread-10685-1-1.html
    & b0 l% l4 w7 Q3 O( _3 p% o! |/ z; `" m2 c$ s
    利用上面的操作,src_result.txt就是有真人语音的《现代法汉汉法词典》了。* V/ f. z$ B  H: k) K& k& z

    , O/ V2 T0 ^8 n8 ^, q7 s$ N& G) y三、0 ~( j$ h! v  x' S3 j! ~
    一、二的组合情况。
    , K" q: F& o& D4 S! Y========================================================================
    ( A, ]) B% v' W7 y说了这么多废话,跟Dotext什么关系呢?
    7 P. T# Q, ^1 O/ l: l我上面那一堆,核心就是想得到src_1.txt里keyword为B、D的条目,' o  r  [- j3 |2 f: {3 T

    7 G1 c9 Z0 k( V+ E! `8 e- b2 Ysrc_1.txt
    9 [( t! r& `! O' {. A; }: J
    A6 m1 E$ q% }- h/ |9 j- r# {
    A_CONTENT_src_11 i  u0 B' G' C( ~
    </>: e* W, f" O/ t/ g$ d# m/ O; W
    B
    4 N. |: |! B0 M1 j$ xB_CONTENT_src_1* F2 a& t! J( Y; O% ]' [6 i$ t0 R
    </>
      B) j. u  Y: C& T  r) P( eC$ u0 l  m$ R" a2 n
    C_CONTENT_src_1
    * w( S$ e( q' o2 M7 L4 ~</>$ C) d) V0 D) C5 }
    D/ Y! V/ q7 L$ C) t! O: I
    D_CONTENT_src_17 q- v. ?) Z* `2 O6 M
    </>

    4 e! C% `! d- v0 ^9 }2 W提取条件是
    , L4 X  C7 [" G9 S( a  Y& t# c9 F
    B) V# E, r* g, `' Z9 q
    D
    ) m. k, G! K9 s- n
    提取结果
    0 N6 V4 R' ~6 m( }8 D) Xsrc_1_extract.txt7 U; n; I# B% l8 y: `8 S, q
    B
    7 u9 O6 }3 {3 y4 Z& G( e2 rB_CONTENT_src_1! Y9 Z0 g% @- X0 k
    </>5 a( s' E5 w5 d1 [
    D
    5 Z7 o. k6 Y9 A$ e) }  E- `' VD_CONTENT_src_19 U' K3 x: n( S* y
    </>
    2 s" P' J7 c+ \
    Bingo!
    + r  n; h4 q* [5 q不知道能不能给RegEx Dotext加上这个功能,或者说已经可以实现,但是我没摸索到?
    % j2 H# M3 |6 R; D9 O+ ?再次感谢楼主。{:10_244:}
    2 q  F5 q! j  b& I+ O" B: p8 m9 @& e$ N* A; X

    该用户从未签到

    发表于 2013-11-30 11:07:34 | 显示全部楼层
    谢谢老大。我想要新版。我的邮箱:[email protected]

    该用户从未签到

     楼主| 发表于 2013-11-30 13:37:17 | 显示全部楼层
    本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑
    3 O. U2 K5 _" k: _9 e6 p2 p& W. ?, w2 h4 a
    mdx fan 们,O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人,我等若能有他一半,何愁解决不了自己的问题。
    & _- I: {4 V8 \$ n7 D# b& P( j4 G, H% t
    **所见略同。这种按需提取,正是dotext考虑的下一次升级。前面各版主要在于排错,以后可能主要在于添功能。8 S0 G1 p7 l( H& b+ |0 Y! N
    正如你所言,懂英语、懂词典的,不懂技术;懂技术的不太懂这词典到底该怎么搞,怎么弄好用。恰好我几样都懂点(尽管只懂点皮毛),所以,知道想要什么

    该用户从未签到

    发表于 2013-11-30 20:18:03 | 显示全部楼层
    谢谢老大的工具。真的非常感谢!

    该用户从未签到

    发表于 2013-12-1 01:54:43 | 显示全部楼层
    正式我在找的软件,合并词条,去掉重复词条。
  • TA的每日心情
    擦汗
    2025-3-22 09:30
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2013-12-2 18:19:54 来自手机 | 显示全部楼层
    本帖最后由 majikun 于 2013-12-2 18:22 编辑 * R! e* h% o% F4 J

    # r- |$ `4 \9 S* D5 \1 p支持老大正在制作词典,里面的重复太多了,特别需要老大的新版软件,可以发我的邮箱吗?[email protected]谢谢了

    该用户从未签到

    发表于 2013-12-2 18:37:02 | 显示全部楼层
    本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑
    3 q9 [9 P3 B/ V& w' d( ]$ x! T5 G" z% T( X0 p' ?, c) u
    非常感谢楼主的分享!支持...E-mail:[email protected]

    该用户从未签到

    发表于 2013-12-3 11:04:24 | 显示全部楼层
    正在修改21世纪大英汉词典,这个词典释义比较广泛,例句丰富,但是需要词条合并一下。
    ' l! W$ s+ Z" j% e  s不知楼主能否共享下解压密码?谢过了~~
    ' K0 A5 b! s# B& w& k[email protected]
  • TA的每日心情
    开心
    2025-1-24 20:48
  • 签到天数: 635 天

    [LV.9]以坛为家II

    发表于 2013-12-3 15:39:34 | 显示全部楼层
    感谢楼主无私的奉献,请惠赐密码

    该用户从未签到

    发表于 2013-12-3 16:48:34 | 显示全部楼层
    sunsmile23大神你好,
    7 D$ |- M2 u' [& D( h; C- K& m有个问题请教一下:
    1. Revere
      5 e7 C6 F1 ?( i9 [2 |  p9 t
    2. n. 里维尔(美国马萨诸塞州东部城市)
      % \/ [. M5 T& o4 _. \( b
    3. ' A$ |1 ~, t. w" W3 g
    4. revere
      0 x5 o9 [# T; Q- A$ E! ]
    5. vt.尊敬,尊重;崇敬% p9 X1 L  k- V3 f5 {( b

    6. 2 o5 d  k, Y* |  Z0 Z6 D
    7. revere
      3 k6 m- U! K, f2 J) m$ A+ f8 L
    8. n.单词revers的变体
    复制代码
    这三个单词,我想合并后两者,前面的Revere作为独立的词条。. a: ?) z* w9 F& N9 p
    但是我用RegEx Dotext 1.0β3转换后,这三个词条合并在了一起。9 d2 t0 g( t( R& F2 J6 W

    7 X( p! J+ ^0 D3 w. `猜测可能是因为没有区分词条的大小写。
    7 h" Q, [. d, Q) T; ]0 y请问应该如何操作呢?
    ; s6 v, ]) S3 t5 L2 D* n5 l
    , c4 f, x& r  Q3 C6 s$ E0 b谢谢!

    该用户从未签到

     楼主| 发表于 2013-12-3 20:25:58 来自手机 | 显示全部楼层
    确实不区分大小写。
    $ }2 y8 i. b2 O' T# [! W6 n以后版中,是否区分,可交给用户去决定

    该用户从未签到

    发表于 2013-12-3 21:13:42 | 显示全部楼层
    能否增加一个功能:全部删除释义相同的词条?* C" Q% O% h  g+ T( q
    应用背景:在合并时,有些完全相同的词条在N本词典中都有,并合后就会重复出现,因此 只想保留其中的一条即可。
    8 @) L& z/ S1 G+ Z; b1 O如有可能,请提供,谢谢您 。

    该用户从未签到

    发表于 2013-12-7 23:00:11 | 显示全部楼层
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
    3 ~* N3 b5 o0 D9 x" i2 H其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了,可惜精力不够了!
  • TA的每日心情
    慵懒
    2025-1-28 16:22
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2013-12-9 20:40:02 | 显示全部楼层
    Hugh 发表于 2013-12-7 23:00
    / o0 ]' B% B9 o; l我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
      E$ H& g  w9 [) J8 Z其 ...

    3 b. W7 s1 G( ^* J赏心悦目的排版。

    该用户从未签到

    发表于 2013-12-11 22:49:30 | 显示全部楼层

    该用户从未签到

    发表于 2013-12-11 23:35:54 | 显示全部楼层
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没错啊?

    该用户从未签到

    发表于 2013-12-12 08:55:19 | 显示全部楼层
    抽取短语有没有人做过

    该用户从未签到

    发表于 2013-12-12 09:13:27 | 显示全部楼层
    老大的作品太好了,给个新版吧,谢谢!![email protected]

    该用户从未签到

     楼主| 发表于 2013-12-12 20:21:37 来自手机 | 显示全部楼层
    hyln9 发表于 2013-12-11 23:35
    . C$ P/ m. k) H  o  _前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没 ...

    & x7 |0 \0 |( N! J" b9 Y贴出来看看。
    5 J" _' K3 b% S8 e/ i9 d这个与perl兼容。

    该用户从未签到

     楼主| 发表于 2013-12-12 20:24:53 来自手机 | 显示全部楼层
    l126t 发表于 2013-12-12 08:55( F$ N% l. i2 @
    抽取短语有没有人做过
    - c/ ]& n# M" p) a1 w% |/ {
    帮助里有使用示范文件的例子。& F' K/ {! Q7 M+ o
    最关键的是找出短语特征。

    该用户从未签到

    发表于 2013-12-13 01:46:44 | 显示全部楼层
    sunsmile23 发表于 2013-12-12 20:21 6 K2 y2 q; n9 ~
    贴出来看看。5 I$ A  w- y" ~4 X. m6 O
    这个与perl兼容。

    1 E" `& y; [, V% |3 X实在抱歉,我后来吧表达式缩短了一些就没再报错,之前的没有记录下来。不过还有一个疑问,就是转出来的文件会有这样的:<a> 我都手工改成了 </a>
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-27 05:36 , Processed in 0.020729 second(s), 15 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表