掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: lgmcw

[工具] ⚜【支持超大文件】Python MDX词典打包工具 2019-11-19更新

  [复制链接]
  • TA的每日心情
    慵懒
    2021-9-1 08:46
  • 签到天数: 61 天

    [LV.6]常住居民II

    发表于 2021-9-25 11:27:29 | 显示全部楼层
    多谢,我总算找到答案了。明天把词典再重做一下。
  • TA的每日心情
    开心
    2023-4-7 00:20
  • 签到天数: 494 天

    [LV.9]以坛为家II

    发表于 2021-9-25 16:42:46 | 显示全部楼层

    8 ]$ v0 h. O/ n# f' V0 A好东西 谢谢分享5 u4 w7 U1 F' W: h

    该用户从未签到

    发表于 2021-9-27 09:15:39 | 显示全部楼层
    謝謝分享此
  • TA的每日心情

    2022-10-14 17:24
  • 签到天数: 52 天

    [LV.5]常住居民I

    发表于 2021-9-27 17:48:28 | 显示全部楼层
    感谢大佬分享,学习
  • TA的每日心情
    开心
    2023-12-31 23:26
  • 签到天数: 1286 天

    [LV.10]以坛为家III

    发表于 2021-9-27 21:59:55 | 显示全部楼层
    感谢楼主,多谢!

    该用户从未签到

    发表于 2021-10-3 14:54:37 | 显示全部楼层
    感谢楼主分享。
  • TA的每日心情
    开心
    2018-1-15 14:00
  • 签到天数: 39 天

    [LV.5]常住居民I

    发表于 2021-10-3 20:32:09 | 显示全部楼层
    看一看,感谢分享!
  • TA的每日心情
    擦汗
    2021-11-17 09:18
  • 签到天数: 79 天

    [LV.6]常住居民II

    发表于 2021-10-6 09:52:48 | 显示全部楼层
    muyuzhth0 发表于 2021-7-23 14:38
    2 u4 d( F8 a8 m/ t" apython3.8.9调试成功!
    8 d& I# x4 j$ e% C  ?+ C% j, m/ O9 r, Z! g8 R; L
    做了如下修改:

    + H* j* {6 `, `# I(3) 在哪里加入
    1. current_path = os.path.dirname(__file__);current_path+"/OALD4_azure.txt
    复制代码
    & b. T  K& {  ]# N! I
    / N, I0 x4 [0 }1 d2 w* x
    我的版本是 3.9.7  ,目前没有遇到 No such file or directory 报错。 然后是genMDX_ox4.py 文件有部分中文乱码
    7 T) y; r; L" c) c
    % {/ r5 Z, s4 F2 A( E2 S* r: K
    1. # -*- coding: utf-8 -*-- v1 L. Y2 F! E2 \/ |' o/ n
    2. # encoding=utf8
      : h$ y; J/ N# I6 H7 B# X0 z
    3. * X: ?. t- K- S* h3 n7 r
    4. from __future__ import unicode_literals,print_function, absolute_import, division
      $ ^+ U* s& u' Y" W1 |* L3 j

    5. ) ?9 x1 K; Q" V* A, S& M4 [* p( {
    6. " ^! ^# I6 F& t* n5 U% f
    7. import re/ {& |" T( \; M7 `6 M1 `' ~
    8. import copy. k' n# h8 w% [; a9 I
    9. import chardet7 N' t9 q) h/ _5 B7 N: P
    10. , J$ g  e% S5 O6 |+ J
    11. import os
      " c, J6 ?% l. R/ e% T
    12. import io& p7 s6 M6 j$ J% l
    13. import sys% P$ R' R7 B. w
    14. # reload(sys)
      $ U) q1 S5 R5 A" ?: ?2 x
    15. # sys.setdefaultencoding('utf-8')
      + @5 ~4 V9 J5 g5 j* h9 j. R
    16. 1 m! O5 J; u9 H* x1 q
    17. import collections3 X0 j0 ^" b$ k9 q8 v
    18. from collections import defaultdict* _. c' a+ ]% [, s9 g% ~
    19. 8 M" {  x$ {2 F7 X1 @' G$ `, s1 I

    20. $ O, h/ I7 Q. P' \, \( l
    21. from writemdict import MDictWriter, encrypt_key
      ( G* }4 O9 s/ s
    22. from ripemd128 import ripemd1287 _! y; |7 O& U* n/ O7 X% k, R
    23. 9 r! o/ ~) h4 R, X- W4 w& U* \" Y
    24. " u( M9 A, Y0 g+ s6 N: [% F( l
    25. head = 02 B% [6 N. a3 Q( `: P
    26. new_mean =[]
      ( `5 z  l1 L2 Q( v2 M9 h6 x
    27. f=io.open('OALD4_azure.txt', 'r',encoding='utf-8')
      0 M. E) _+ q3 N# A+ s* [: V9 M
    28. #f=io.open('oxford2_original.txt', 'r',encoding='utf-8')
      & r4 i$ ~& A6 `, J9 {
    29. d = defaultdict(list) #����һ�����ֵ䣬Ҳ��ʹ��{}������6 P, _& g' ~: b( Y" @- U# c0 n4 n
    30. for line in f: #ÿ�δ�f�ж���һ��
      4 }0 }3 m+ j1 p6 O! Y7 n0 v2 ^
    31.     line=line.rstrip('\n')#ȥ����β�Ļ��з�
      : D* N5 Q! W5 L- Q( r7 ?9 y" \
    32.     if line == '</>':4 F, z+ U; ~3 r. h
    33.         if head == 2:' h$ V8 ?  V3 `( \' L
    34.             new_mean[0:] = ["".join(new_mean[0:])]
      ) v3 g' ]1 \* t$ Q% k' i$ r
    35.             d[word].append(new_mean[0])7 d# U3 D1 T- c% f9 Q5 q8 d. `
    36.         head = 1;+ x* H0 u2 q& c
    37.         new_mean =[]" h, U0 g; d: H8 ^9 V' r
    38.     elif head == 1:+ o& e6 B9 h1 T* ?& d
    39.         word = line" s) Y! U; w, h0 h# R
    40.         head = 22 k+ K/ Q; _5 q6 H  W
    41.     elif head == 2:, n0 V! F& s9 e# c: t* @2 h! F
    42.         new_mean.append(line)
      * N7 D1 f2 R- n, F$ x
    43.         head = 2/ ?% Q' y- X  j
    44. f.close()
      : R, i4 y- F: U  S

    45. ! W4 [8 ^0 \; p1 E& J

    46. . I1 I. m1 M- d* o
    47. ff=io.open('about_OX4.txt', 'r',encoding='utf-8')#�ʵ�about��Ϣ��txt�ļ��뱣��Ϊutf-8
      ' h4 z  E# ^5 c! @9 a
    48. about=[]$ d8 m; I4 d8 H, P" D
    49. for line in ff: #ÿ�δ�f�ж���һ��
      ' u  i" Q( ~* @# S( `
    50.     about.append(line); j, z; |; J- x- ?! ~( \+ _2 Z' g8 J
    51. about[0:] = ["".join(about[0:])]
      # ^. f. |' s. e) v
    52. 0 H' a/ H9 w4 ]
    53. % M: |) y2 ?; M9 [1 v
    54. #outfile = open("example_output/��ţ��Beta_V2.2.1.mdx", "wb")
      4 f& p3 Z: v# E2 L: K8 I  L- ~( Y0 g3 _! s
    55. #writer = MDictWriter(d, "��ţ��Beta_V2.2.1", about[0])
      & ^, I1 M% n3 b5 y& u
    56. outfile = open("output_ox4/OALD4_Ex.mdx", "wb")& v5 q; h( H) t$ A- S- D+ y
    57. writer = MDictWriter(d, "ţ��߽�˫��(���İ�)", about[0])& v  o" d) {5 F
    58. writer.write(outfile)
        U& N- t* ?, l0 E/ e2 e
    59. outfile.close()
      8 }2 {9 c* s4 X1 f9 F; r7 |

    60. 9 l) w' L4 P" O4 c
    复制代码
    ( T) w: t3 E1 I1 [+ X% q7 Q
    3 o- Z, l  U8 L& N
    / R0 z8 y4 \* g6 G" c2 u
    是否可以看看你的文档呢 乱码的部分中文写的是什么?
  • TA的每日心情
    开心
    2024-4-3 08:34
  • 签到天数: 313 天

    [LV.8]以坛为家I

    发表于 2021-10-21 15:49:49 | 显示全部楼层
    向大牛學習編程!

    该用户从未签到

    发表于 2021-10-22 14:47:53 | 显示全部楼层
    我也想要整一个
  • TA的每日心情
    开心
    2021-11-27 10:32
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2021-11-8 11:41:55 | 显示全部楼层
    感谢大神分享!
  • TA的每日心情
    郁闷
    2023-12-5 07:37
  • 签到天数: 631 天

    [LV.9]以坛为家II

    发表于 2021-11-8 12:07:00 | 显示全部楼层
    非常好,大赞
  • TA的每日心情
    开心
    2019-5-18 14:33
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2021-12-14 11:17:04 | 显示全部楼层
    thank for your sharing.
  • TA的每日心情
    开心
    2022-9-6 08:28
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2022-1-6 10:27:03 | 显示全部楼层
    thanks for sharing
  • TA的每日心情
    开心
    2023-7-26 00:08
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2022-1-28 22:45:46 | 显示全部楼层
    谢谢楼主大大,
  • TA的每日心情
    慵懒
    2022-2-10 12:51
  • 签到天数: 352 天

    [LV.8]以坛为家I

    发表于 2022-2-2 21:06:57 | 显示全部楼层
    正好需要打包大文件。谢谢了
  • TA的每日心情
    开心
    2022-3-22 20:13
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2022-2-3 09:43:15 | 显示全部楼层
    学习学习,谢谢分享
  • TA的每日心情
    开心
    2022-2-10 09:34
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2022-2-10 10:08:59 | 显示全部楼层
    元老玩家  感谢  感谢

    该用户从未签到

    发表于 2022-2-11 22:51:45 | 显示全部楼层
    楼主辛苦了,感谢您的付出!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-28 15:35 , Processed in 0.070205 second(s), 7 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表