|
发表于 2009-5-17 18:49:08
|
显示全部楼层
这两天没有上论坛,刚刚才看到。; q$ w x9 p6 m- r: s3 r
首先要将文本全部转换成UNICODE格式。7 M" b4 V- b! S) D1 P
1、选择UE正则表达式引擎,
- D/ y& `9 F( x# w- q查找:"。^(?^)^p①"(引号内)
0 s7 H1 o' m; k! E替换:"。^p</>^p^1^p①" 即可
9 g% z) O+ H' I5 ^; w& @; F2、要替换两次,第一次:2 r9 T# C* }$ r
查找:"参见“ ^(?^)2^(?^)"
$ H1 ^& {$ o/ v* z! _6 S替换:"参见“^1^2"
! Y, f6 r& Z, l1 y5 I- D2 g
1 h" `7 p4 g6 a第二次:
3 j$ O2 U* ~4 q1 l: q9 y) n查找:</>^p^(?^)2 替换:</>^p^1
' G$ j- r7 ^+ n) k5 ~! ]8 t7 m' w如果不仅是2有其它的数字,把2改成[2-9]即可。( W& e0 P" ] U, e* V d
* t a4 F4 {$ g/ h/ O, u+ W3、如果会SQL语言通过程序来处理会比较方便一些。3 c; ]$ L* |* f6 z0 q
不过还有另一种办法:请先将换行符全部替换成特殊的字符(如@@@),转换后使一个词条为一行;然后用EXCEL打开(当然EXCEL最多只支持65536条词条,如果超过请截成多个文本。),排序,在B2单元格上构造一个公式:7 O1 r, K$ c8 ^- W0 S3 ^4 G
B2=IF(A2=A1,1,0),然后把公式给复制到B2以下的所有单元格,见附图:7 p& t6 n' W. Y6 P
9 u( ]+ Q& a3 u& O3 ^
这样很明确,凡是B列单元格中值为1的一定是重复的词条,通过EXCEL的数据→筛选→自动筛选 操作,删除值为1的所有行即可。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
|