mdx制作必备：RegEx Dotext,可合并词条，提取信息等

19730712 · 发表于 2013-11-28 09:26:19

这个可以把词库任意组合啦！无敌呀！

louislaolu · 发表于 2013-11-28 12:36:48

谢谢楼主分享，让我也试试吧。

sxingbai · 发表于 2013-11-28 21:27:54

几天没上，大神已更新了这么多次，辛苦了
想要您的最新版，可以吗？

guokhan · 发表于 2013-11-29 12:49:07

软件真好，对我帮助很大！希望老大分享，体验新版使用的快感！

Oeasy · 发表于 2013-11-30 09:50:33

本帖最后由 Oeasy 于 2013-11-30 10:02 编辑

首先感谢楼主

，提供了这么好的工具，谁用谁知道。节省了大量的时间，以前我都是用Excel来合并词条，很费劲，还有内容丢失的情况（因为Excel一个单元格里的内容有长度限制）。不过人心不足蛇吞象，我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。

说明，下面我用到了三个有“名”的txt。
src_1.txt，mdx源文件1；
src_2.txt，mdx源文件2；
src_result.txt，最终（想）得到的txt，keywords为src_2.txt，条目内容为src_1.txt+src_2.txt对应条目下的内容。
========================================================================
有src_1.txt、src_2.txt这样两个mdx源文件，其中
src_1.txt

A
& B/ \5 g2 g5 p( cA_CONTENT_src_1! T3 C6 ]. E2 ~; G
</>
% [2 I4 y7 w: L0 l, e4 JB, u8 B k- M! v% i, ^" q
B_CONTENT_src_1
) [: N1 B" n% E1 b& ?/ O! o( U6 r9 n</>) G. ^% h4 _7 ~+ @2 l0 y9 }
C
0 H9 [6 w5 B% l1 N5 P- a. LC_CONTENT_src_1
( @" ~& Z1 O4 j5 W</>1 Y8 t5 ~" D1 Z* X1 l
D, O" p* r( A/ ]4 @$ l8 Q5 y( Q8 S9 A
D_CONTENT_src_1- y( @9 Q/ T. b+ g& u! m3 y. U; o
</>

src_2.txt

B9 ?. V- g( ]' l" F) S0 e( m
B_CONTENT_src_21 k3 z) R$ F4 G, I; z2 i5 t
</>
+ e/ z) H _, ^# N& XD
! i0 n- v& I+ {5 N9 BD_CONTENT_src_2
8 M. Z) L3 @9 q</>

我想得到这样一个mdx源文件
src_result.txt

B
& z7 H% R; V6 ?$ k5 g! wB_CONTENT_src_1
6 w: h' k1 `* c5 j7 f# nB_CONTENT_src_21 e( Y. k! \0 h* M6 x
</>4 A+ A z4 q$ V0 }. e
D7 J; H; L+ ~3 L$ d) X
D_CONTENT_src_1
: G' m# b; h% l$ a- x8 OD_CONTENT_src_2
9 N/ l0 G6 V, T( X& B; W</>

目前我的处理方法是，src_1.txt与src_2.txt合并（就是复制粘贴到一个文件里啦），然后利用Dotext的合并词条功能，得到

A( ]: {9 S/ [3 G# b  J
A_CONTENT_src_1' C0 p8 U8 b, R) V7 A
</>
! D4 P5 g. t! LB
+ j* W: n9 V. |+ e. i- ?$ aB_CONTENT_src_1
, f2 Y% L7 l/ Q" _" r- bB_CONTENT_src_2; E1 |  f2 w1 g& ^; k: q; w2 U
</>
) u/ c& i+ g3 G  Y+ cC/ i+ ]6 ?! b  D" z
C_CONTENT_src_1, u9 _# T4 c0 a0 C  Y. w  O$ ^6 @3 S
</>
& V. i  X. y0 B; ]6 T, ?2 HD
# e7 ]& n$ ~6 g# B- S9 P" yD_CONTENT_src_1" D5 K8 K. n; J( r5 C6 F; B8 c
D_CONTENT_src_26 a! r4 S  D- c- O( w
</>

然后利用src_2.txt里原有的一些标记性文字，删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。
这其实就是mdx源文件的合并、取差、筛选等等。
========================================================================
说说这个idea有什么用。
一、
src_2.txt可以是一个list性质的mdx，比如

生词19 A0 \+ A% K! r$ h) k
随便什么内容15 t1 Y) R% R) L* {# u# T( B0 a
</>
& ~1 x/ e5 {$ k. ^; P% f2 p* `生词2
( x8 y$ D4 p6 k0 b随便什么内容2
% P8 B4 t+ N% ~, Q4 h</>

src_1.txt可以是某本双解词典。

利用上面的操作，就从src_1.txt提取出了生词1、生词2的词条（内容），做成一个mdx，时常阅读、复习，可算是升级版本的“生词本”（单词本）。
二、
src_2.txt可以是一本小型的词典，比如
外研社现代法汉汉法词典
src_1.txt则是chigre的【2013.05.27】法语发音库（121,310检索项, 实际90,626词条）
https://pdawiki.com/forum/thread-10685-1-1.html

利用上面的操作，src_result.txt就是有真人语音的《现代法汉汉法词典》了。

三、
一、二的组合情况。
========================================================================
说了这么多废话，跟Dotext什么关系呢？
我上面那一堆，核心就是想得到src_1.txt里keyword为B、D的条目，' o r [- j3 |2 f: {3 T

src_1.txt

A6 m1 E$ q% }- h/ |9 j- r# {
A_CONTENT_src_11 i u0 B' G' C( ~
</>: e* W, f" O/ t/ g$ d# m/ O; W
B
4 N. |: |! B0 M1 j$ xB_CONTENT_src_1* F2 a& t! J( Y; O% ]' [6 i$ t0 R
</>
B) j. u Y: C& T r) P( eC$ u0 l m$ R" a2 n
C_CONTENT_src_1
* w( S$ e( q' o2 M7 L4 ~</>$ C) d) V0 D) C5 }
D/ Y! V/ q7 L$ C) t! O: I
D_CONTENT_src_17 q- v. ?) Z* `2 O6 M
</>

提取条件是

B) V# E, r* g, `' Z9 q
D

提取结果是
src_1_extract.txt

B
7 u9 O6 }3 {3 y4 Z& G( e2 rB_CONTENT_src_1! Y9 Z0 g% @- X0 k
</>5 a( s' E5 w5 d1 [
D
5 Z7 o. k6 Y9 A$ e) } E- `' VD_CONTENT_src_19 U' K3 x: n( S* y
</>

Bingo!
不知道能不能给RegEx Dotext加上这个功能，或者说已经可以实现，但是我没摸索到？

再次感谢楼主。{:10_244:}

ok927 · 发表于 2013-11-30 11:07:34

谢谢老大。我想要新版。我的邮箱:[email protected]

sunsmile23 · 发表于 2013-11-30 13:37:17

本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑

mdx fan 们，O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人，我等若能有他一半，何愁解决不了自己的问题。

**所见略同。这种按需提取，正是dotext考虑的下一次升级。前面各版主要在于排错，以后可能主要在于添功能。
正如你所言，懂英语、懂词典的，不懂技术；懂技术的不太懂这词典到底该怎么搞，怎么弄好用。恰好我几样都懂点（尽管只懂点皮毛），所以，知道想要什么

ok927 · 发表于 2013-11-30 20:18:03

谢谢老大的工具。真的非常感谢！

pdawiki · 发表于 2013-12-1 01:54:43

正式我在找的软件，合并词条，去掉重复词条。

majikun · 发表于 2013-12-2 18:19:54

本帖最后由 majikun 于 2013-12-2 18:22 编辑

支持老大正在制作词典，里面的重复太多了，特别需要老大的新版软件，可以发我的邮箱吗？[email protected]谢谢了

dingweifengye · 发表于 2013-12-2 18:37:02

本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑

非常感谢楼主的分享!支持...E-mail:[email protected]

arshcaria · 发表于 2013-12-3 11:04:24

正在修改21世纪大英汉词典，这个词典释义比较广泛，例句丰富，但是需要词条合并一下。
不知楼主能否共享下解压密码？谢过了~~
[email protected]

在劫难逃 · 发表于 2013-12-3 15:39:34

感谢楼主无私的奉献，请惠赐密码

arshcaria · 发表于 2013-12-3 16:48:34

sunsmile23大神你好，
有个问题请教一下：

Revere
5 e7 C6 F1 ?( i9 [2 | p9 t
n. 里维尔(美国马萨诸塞州东部城市)
% \/ [. M5 T& o4 _. \( b
' A$ |1 ~, t. w" W3 g
revere
0 x5 o9 [# T; Q- A$ E! ]
vt.尊敬，尊重；崇敬% p9 X1 L k- V3 f5 {( b
2 o5 d k, Y* | Z0 Z6 D
revere
3 k6 m- U! K, f2 J) m$ A+ f8 L
n.单词revers的变体

复制代码

这三个单词，我想合并后两者，前面的Revere作为独立的词条。
但是我用RegEx Dotext 1.0β3转换后，这三个词条合并在了一起。

猜测可能是因为没有区分词条的大小写。
请问应该如何操作呢？

谢谢！

sunsmile23 · 发表于 2013-12-3 20:25:58

确实不区分大小写。
以后版中，是否区分，可交给用户去决定

ok927 · 发表于 2013-12-3 21:13:42

能否增加一个功能:全部删除释义相同的词条？
应用背景：在合并时，有些完全相同的词条在N本词典中都有，并合后就会重复出现，因此只想保留其中的一条即可。
如有可能，请提供，谢谢您。

Hugh · 发表于 2013-12-7 23:00:11

我是最大的受益者！再来致谢！（我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o）
其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了，可惜精力不够了！

deeke · 发表于 2013-12-9 20:40:02

Hugh 发表于 2013-12-7 23:00
/ o0 ]' B% B9 o; l我是最大的受益者！再来致谢！（我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o）
E$ H& g w9 [) J8 Z其 ...

赏心悦目的排版。

81196081 · 发表于 2013-12-11 22:49:30

hyln9 · 发表于 2013-12-11 23:35:54

前来致谢！合并词条效果很好！只是很奇怪，里面的正则表达式怎么用不了？总是报错。同样的表达式在c#里面没错啊？

l126t · 发表于 2013-12-12 08:55:19

抽取短语有没有人做过

guokhan · 发表于 2013-12-12 09:13:27

老大的作品太好了，给个新版吧，谢谢！！[email protected]

sunsmile23 · 发表于 2013-12-12 20:21:37

hyln9 发表于 2013-12-11 23:35
. C$ P/ m. k) H o _前来致谢！合并词条效果很好！只是很奇怪，里面的正则表达式怎么用不了？总是报错。同样的表达式在c#里面没 ...

贴出来看看。
这个与perl兼容。

sunsmile23 · 发表于 2013-12-12 20:24:53

l126t 发表于 2013-12-12 08:55( F$ N% l. i2 @
抽取短语有没有人做过

帮助里有使用示范文件的例子。
最关键的是找出短语特征。

hyln9 · 发表于 2013-12-13 01:46:44

sunsmile23 发表于 2013-12-12 20:21 6 K2 y2 q; n9 ~
贴出来看看。5 I$ A w- y" ~4 X. m6 O
这个与perl兼容。

实在抱歉，我后来吧表达式缩短了一些就没再报错，之前的没有记录下来。不过还有一个疑问，就是转出来的文件会有这样的：<a> 我都手工改成了 </a>

		自动登录	找回密码
密码			免费注册

[工具] mdx制作必备：RegEx Dotext,可合并词条，提取信息等