|
本帖最后由 muyuzhth0 于 2023-2-4 15:04 编辑 . N r4 q) E3 s# G
2 U5 w0 |/ g0 e* [5 A( E
一、前言
9 x: a6 J6 [( I# O5 C- t# K& H本人使用mdict、goldendict多年,自己也做过一些词库,目前还在使用goldendict,受益颇多。这两款词典的优点很多,我也就不多说了,但是仍然满足不了我的一些需求。+ E5 z" m2 s0 f6 y A5 X0 w
本人收集了很多很多很多pdf、word文档资料。如何在这些资料中快速找到自己需要的信息呢?% K) i% d5 n4 g
例如:在3万多文件中,全文搜索“表见代理”,找到427个文件,在这427个文件范围内全文搜索“除斥期间”,找到21个文件,在这个21个文件中全文搜索“起算”……7 A! l6 z2 W, {& ]
mdict、goldendict难以胜任这个工作。全文搜索工具有好多,不乏Archivarius 3000、anyTXT等神器,不过各有优缺点(全文搜索工具对比介绍),也不能满足我的需求。" P( E) X" W( f) u$ G% Q- Q+ k b
以前写过简单的程序用来搜索pdf或者word文档。但是程序会有一个提取pdf(word、excel)文档字符的过程,并且每次搜索都要重新提取。这个过程非常耗时,于是放弃了。7 e/ z! F3 {0 r* p+ q2 i
因为不会制作索引,又因为我的资料库几乎每天都在增加新内容,所以本人这次采取的方式是将资料库中的pdf(word、excel)文档转换为txt格式的文档(可能相当于山寨版的索引吧),然后在txt文档中搜索需要的信息。如果检索到,则说明相同文件名的pdf(word、excel)文档中有相同的信息,配合“everything”神器,打开查阅即可。
8 F- ^, U* I( G. b, d, ^% @: e二、搜索效率测试
8 w( U7 ~* N8 p/ q' z$ d, [, P仅支持64位windows系统,在win7、win10上测试过,可用,未报错。
5 h" t) d8 E1 T2 k' E1 h8 f2 f7 x3 t, [- {* P
程序和文档全部在u盘里,3.2万+个文档。2 y: M; c4 ?2 S0 o( O, D, M; a7 W
! P/ i+ Z: ]( V6 J' f6 ]6 X
使用regex搜索“.{0,50}表见代理.{0,50}”,耗时70.44秒。
7 P; e, ^6 g E' P' Q) ^; z
3 R' m, W! o# t" Z, q不使用regex搜索“表见代理”,耗时29.12秒。6 V( T4 r# ?8 x! n; l; ~0 F
J0 @6 Q6 ]0 r; n; ?5 Q# h三、程序主要特色- [$ s* F' e2 O9 W
1.支持在搜索结果范围内继续搜索,不断缩小搜索范围。0 O6 e* n" [* Q$ k8 ?
2.支持文件名和文件全文两个关键词的同时匹配。
' ~9 p+ {* y$ \) q' ~) N+ d3.支持正则表达式或非正则表达式两种搜索模式。使用正则表达式时,支持显示详细信息。
1 N9 u1 D3 E/ e4.支持搜索记录导出。; n8 q: o! J; O; p) @. `: w
5.根据需求,手动转换所需文件转换为txt文档,不强制建立索引文件。
1 u" l, \$ A4 o6 [7 X% w好了,如果你有相似使用情形,且对搜索效率满意,也没有什么更好的其他软件可选择(如果有,告诉我),那么接着往下看。
: s1 y4 Y( j) M2 U) h四、功能介绍3 C+ Z* o T+ L0 Q7 q, l
9 l& a) ~: R! k7 {4 {9 z/ h
rootdir:点击这个button,选择搜索的路径(包括子目录中的文档)。
8 H, z+ g6 \/ E- ]keyword(in filename):设置搜索文件名中的关键字。这一步速度超快,如果知道文件名中的必包含的关键字,设置后会缩小文档搜索的数量。设置为“txt”表示在所有txt文档中搜索,因为每个txt文档的文件名都包含“txt”,当然也可以设置为空。, u3 |/ A1 a% P8 ]+ m% X
keyword(in txt):设置搜索txt文档内容中的关键字。* E) E: P% ~( h& ^3 i; n- W
use regex(details):是否使用正则表达式搜索(使用正则表达式搜索,支持显示搜索到的详细信息)。 Y) o/ m8 b9 p( q# E
绿色进度条:显示程序转换txt或搜索进度。
, P6 ?" X* d' r6 h- aconvert to txt:将选择的路径下的所有pdf(word、excel)文档转换为txt(编码:utf-8-sig)文档,并保存在相同路径下。支持*.pdf、*.doc、*.docx、*.xls、*.xlsx格式,文档中的图片内容无法提取。首次使用或者文档有增加、修改时,需要使用此功能。转换效率测试:335个文件,耗时290.41秒。, }* Y: b" i4 j: b. n8 Q
search in rootdir:顾名思义,点击这个button,每次都会在搜索路径下检索信息。例如:选择某个目录,包含3.2万+txt文档,搜索“表见代理”,找到427个文档。如果换其他关键词搜索,搜索范围仍然是目录下的3.2万+文档。, D0 o9 L6 C$ e% F2 K5 @' P
search in results:点击这个button,每次将在上一次检索到的文档范围内搜索,搜索后不缩小搜索范围。接上例,想在这427个文档中找包含“最高法”或者“最高人民法院”或者其他关键词的文档,首先搜索“最高法”,点击“search in results”,找到0个,那么再试试输入“最高人民法院”, 点击“search in results”,程序仍然会在427个文档的范围内搜索,如果没找到,可以再换其他的关键词……* v+ Q" ]0 E/ C/ j/ [# E
search recursively:点击这个button,用来确认、缩小搜索范围。接上例:在427个文档中搜索到50个包含“最高人民法院”的文档,如果想在这个50个文档的范围内搜索其他关键词,先点击“search recursively”后,程序会修改搜索范围至这50个文档,接下来再使用“search in results”尝试搜索“驳回”、“除斥期间”等不同的关键词,找到想要的文档范围后,再点击“search recursively”来确认缩小搜索范围……两个button循环使用,直到找到符合要求的结果。
* q8 j8 R* {5 C+ d1 I0 @! @貌似逻辑运算或者正则表达式也能够实现这个搜索目的,但是这么搜索逻辑上更简单,搜索结果也更清晰,细品,还是有不少区别的。
+ b. q- t: U& H( c: f& i: e可能你还不明白……不要紧,我表达能力有问题,一共没有几个button,结合需求,稍微试试就知道他们的区别了。/ a5 S ~- E. w: H
中间显示区:显示程序运行信息。. v* Z- ~7 b! W8 a. O$ m: x
底部提示:不使用正则表达式或使用正则表达式时关键字用法和示例的简单介绍。
0 W6 B J, `7 @3 p% {- p+ m) m/ U" I0 c
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|