klwo2 发表于 2020-8-11 19:17:42

教你用人民日报参考消息全文数据库mdx做简单语料库

本帖最后由 klwo2 于 2020-8-11 19:18 编辑

原始资料从这里下:https://www.pdawiki.com/forum/thread-41276-1-1.html

这个东西是阿彌陀佛从老资料网上抓的,我觉得适合做简易的语料库,研究现代汉语的人可以用用。

我教大家怎么把mdx转成适合搜索的txt,但是不会给成品,原因很简单,因为txt里面的内容开放,度娘看得到,说不定传上去也会被和谐掉,还是只说方法好了。

第一步,用mdxexport把mdx转成txt

https://i.loli.net/2020/08/11/ZVq8Rr1uxHKBWnF.png

这个没有太多好说的,文件比较大,等进度条走完就行了。

第二步,把txt分割成多份,我用的是阿海文本分割器,这类工具大同小异,随便选一个

https://i.loli.net/2020/08/11/M4qETVAXfiQse9t.png

选择【按份数分割】,人民日报选200份,参考消息选100份,按【执行】 按钮即可

阿海文本分割器有个问题,就是分割后的文件路径永远都在C盘,留意一下剩余空间足够

第三步,使用FileLocator,定位到目录,用正则搜索即可

https://i.loli.net/2020/08/11/WmTyBqOs2SoLi7p.png

它的速度比goldendict全文检索快,比如我这张图上搜的是「坚决……的行为」,中间插入最多10个字

999阿彌陀佛 发表于 2020-8-11 19:57:11

這樣的教學帖多多益善!

abtxu 发表于 2020-8-11 19:34:54

用奶牛网盘估计不会被和谐

Mandolin 发表于 2020-8-11 20:29:26

FileLocator 的全文检索似乎挺不错

shuwushimang 发表于 2020-8-11 20:33:06

感谢赐教,大赞!

Bartleby 发表于 2020-8-11 20:34:59

但是不会给成品,原因很简单,因为txt里面的内容开放,度娘看得到,说不定传上去也会被和谐掉,

楼主不会打包成zip文件,再设置个密码上传吗?

Toyger 发表于 2020-8-11 20:49:05

人民日报这种二流报纸也就那么回事{:6_130:}

人在上海 发表于 2020-8-11 20:54:58

HyConcv3.9.8免费版和免费的AntConc更专业些,都很方便。

zaijiaseng 发表于 2020-8-23 12:01:41

txt文件分割之后,有很多文件是乱码!

dave 发表于 2021-2-25 22:22:52

人民日报参考资料做的视频
页: [1]
查看完整版本: 教你用人民日报参考消息全文数据库mdx做简单语料库