掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2388|回复: 18

[讨论] 在考虑将天涯论坛上的帖子转换成mdx字典

[复制链接]

该用户从未签到

发表于 2009-4-18 00:41:25 | 显示全部楼层 |阅读模式
基本思路:
% H7 G& i8 X( D: [  c" S1写个程序把某一板块的帖子批量下载到本地存为html格式文件。' C, W( x. ?1 z  V# b6 V& j) O
2用软件TextForever把下载的这些文件转成txt格式。因为下载的html文件里含有乱七八糟的脚本,所以要通过转换txt过滤掉脚本等等无用东西。TextForever利用ie内核转转,转换出来的txt干净整齐,比其他工具比如html2txt等要好很多。
5 a6 T# N) a" G/ s% a3写个脚本在txt文件里加上<br>换行符号,这样在字典里看很清楚。4 h7 i! c% }( m4 [7 X# e$ [$ e
4写个脚本把所有的txt文件合并到一个mdxbuilder能读取的源txt文件中。
2 X0 S5 v+ {& {& ^$ E. P2 H5用mdxbuilder生成mdx文件。

该用户从未签到

 楼主| 发表于 2009-4-18 01:04:44 | 显示全部楼层
目前我手动下载了几个帖子,通过以上的步骤试验成功。
7 y) z- {# ^  `# Z, u第1步 我以前有个vb小脚本,以前用来下载过天涯煮酒帖子的,好久没用了,估计修改下就能下载现在论坛的帖子。4 N9 a- v0 }& b5 D+ u" W
第2步开始不能用htmls2mdx直接转换成mdx,我试过了,因为html里有很多javascript,转换出来的mdx不能用的。所以要通过textforever过滤掉很多无用信息。html2txt转换的文本不好,里面很多东西过滤不干净。而TextForever转换就相当于ie另存为文本文档,干净整洁。3 _! M) E; X( a6 k% h* B
第3步 批量加上换行<br>,第2步弄出来的文本文档虽然在notepad里看是有换行的,但不加上换行<br>,在mdict里看还是没有换行。2 y* ]6 Q# Z8 D5 n& `, {- f
第4步 把所有的文本文件整合成一个mdxbuilder能读取的源txt文件,如果内容很多,估计这个文件很大,几百m很正常。暂时还不知道如何写脚本处理这么大的文本文件。基本思路是,创建一个源文件,读一个文本文件名写入源文件,换行,再读这个文本文件的内容写入源文件,再换行写入</>,这样一个item就弄好了,如此循环下去,知道把所有的文本文件都写入到这个源文件中,就完成了。问题是到后来源文件越来越大,打开和写入源文件越来越慢,如何处理。好像有文件合并的工具下载,不知道能不能用在这一步。
% v2 M: y3 Y; b第5步很好弄的。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2009-4-18 07:20:12 | 显示全部楼层
    期待高手动作:victory:
  • TA的每日心情
    奋斗
    2020-11-29 07:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2009-4-18 08:03:41 | 显示全部楼层
    谢谢高手!!

    该用户从未签到

    发表于 2009-4-18 09:02:02 | 显示全部楼层
    期待中啊~那绝对是经典之作啊~~:victory: :handshake( b8 M  j: N  v  b4 h
    + x; ~! S: ?+ G( Y2 z& B
    顺便问下高手们,俺想批量下载qq群空间里面的聊天记录网页文件,网址倒是蛮有规律:
    * t2 _, b% {4 M2 z# o* Ohttp://qun.qq.com/air/#84448163/chatlog/index/type/0/st/20090418/ap/199/u//p/14 Y% Y6 Y' e! c" O/ X4 C
    http://qun.qq.com/air/#84448163/chatlog/index/type/0/st/20090418/ap/199/u//p/1
    3 Y1 g, T7 |% j..................................
    . Y% F2 R- o( j' c' O3 R5 Ohttp://qun.qq.com/air/#84448163/chatlog/index/type/0/st/20090418/ap/199/u//p/199& W  b3 Y# Q( Z, l- v; C
    但俺用好几个专用下载网页的工具包括迅雷批量下载都没有搞定,期待高手指教啊~4 B- W5 O8 i5 i0 l6 u9 @+ s* r

    4 G. `9 A+ Z  M; l8 A[ 本帖最后由 wuxiaobing208 于 2009-4-18 09:07 编辑 ]

    该用户从未签到

     楼主| 发表于 2009-4-18 19:26:29 | 显示全部楼层
    今天在弄第一步,有些进展了,能够把每个帖子的第一页下载下来了,但是如果一个帖子有很多页,需要下载每一页,正在想办法解决。
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2009-4-18 21:00:11 | 显示全部楼层
    支持。。。

    该用户从未签到

     楼主| 发表于 2009-4-19 17:20:46 | 显示全部楼层
    报告大家,全套流程走通,脚本测试完成。
    ( W% \. p2 Y2 [1 e5 T" e1 B作为测试,我下载了煮酒论史的部分帖子,1200多篇,弄成了一个40多m的mdx文件。在pc版本mdict浏览正常。1 w+ `$ @: W( x" K
    现在最难的是第一步,下载天涯的帖子到本地。估计要把天涯煮酒的主要帖子下载到本地,至少10000个htm文件,平均每个文件200k,那就2G,转换成txt后1.5G,转换成mdx后也差不多1G!# _9 J7 b+ H% D& M
    今天下载了一下午的帖子,才下载了约200个帖子,共约1200个文件,有的巨坑帖子,一个帖子就60多页,60多个htm文件。
    9 x! i, \# Z; v/ d5 Y& X6 d8 G/ Z2 o% s6 R
    怪我的网速太慢啊。

    该用户从未签到

     楼主| 发表于 2009-4-19 17:27:30 | 显示全部楼层
    有谁对天涯煮酒感兴趣么?我把工具发给他,大家一起做mdx,我的网速实在太慢。第一步太难完成。$ ^" P  ?  S8 o) P0 q; }, x9 {1 o/ ^
    我是基于天涯煮酒来做这个工具的,应该也能应用到天涯其他板块,有空再研究。

    该用户从未签到

     楼主| 发表于 2009-4-19 18:41:31 | 显示全部楼层
    工具已经打包上传,请下载使用。
    $ R$ _3 ?9 W  K9 \$ X; c" T# }3 fhttp://www.rayfile.com/files/21a ... -8e8f-0019d11a795f/

    该用户从未签到

    发表于 2009-4-19 18:45:00 | 显示全部楼层
    期待中!!!!

    该用户从未签到

     楼主| 发表于 2009-4-19 19:12:45 | 显示全部楼层
    上传了一个mdx测试文件,只有几百条记录。大家下载看看。
    & r: _( U; ?3 @$ O/ khttp://www.rayfile.com/files/432 ... -8c8c-0019d11a795f/

    该用户从未签到

     楼主| 发表于 2009-4-19 20:00:17 | 显示全部楼层
    天涯还有那个板块的帖子具有收藏到ppc里阅读的价值?

    该用户从未签到

    发表于 2009-4-19 21:27:30 | 显示全部楼层
    俺想要"市场营销"那个板块~呵呵,lz能够搞定不?8 a3 b) m. _- a4 U7 ^
    刚才下载了楼主上传的mdx测试文件,建议楼主将每个文件标题更改后再制作~
    0 q2 J  ?5 X& e3 i0 ]# b: \另外如果只下载精华贴,可以做到不?

    该用户从未签到

     楼主| 发表于 2009-4-19 21:57:07 | 显示全部楼层
    标题更改是很容易做到的,找个软件批量替换下就可以。
    6 [5 \, t: `+ D4 R3 ?" J8 Q1 n/ A标题是按这样的规则定义的: 作者_帖子标题1, 这样能把相同作者的帖子放在一起,后面的数字是序列号,因为一个帖子,尤其是很长的帖子,会有很多页。
    - U: Q) v2 ^4 Y2 B( y* u7 V, C, f, g( e/ R$ Q! S+ w! H& D
    只下载精华贴也是能够做到的,有时间改进下工具能做到。但是精华帖子不多啊!
    9 o/ d- {; k1 ?7 c2 j8 Q- ^& F$ {1 U! z, t: E- p. N
    建议楼上还是去用原始工具下载,自己生成mdx,这样mdx想要包含多少词条都可以。

    该用户从未签到

    发表于 2009-5-28 21:28:28 | 显示全部楼层
    强烈支持,希望楼主把杂谈还有鬼话的一些热门帖子也整理个!!
  • TA的每日心情
    奋斗
    2020-11-29 07:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2010-4-17 07:54:32 | 显示全部楼层

    该用户从未签到

    发表于 2012-2-19 10:46:47 | 显示全部楼层
    大家 有空聊聊

    该用户从未签到

    发表于 2012-3-25 14:40:59 | 显示全部楼层
    下载 了2gd
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-29 08:52 , Processed in 0.027606 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表