掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: lgmcw

[工具] ⚜【支持超大文件】Python MDX词典打包工具 2019-11-19更新

  [复制链接]
  • TA的每日心情
    慵懒
    2021-9-1 08:46
  • 签到天数: 61 天

    [LV.6]常住居民II

    发表于 2021-9-25 11:27:29 | 显示全部楼层
    多谢,我总算找到答案了。明天把词典再重做一下。
  • TA的每日心情
    开心
    2023-4-7 00:20
  • 签到天数: 494 天

    [LV.9]以坛为家II

    发表于 2021-9-25 16:42:46 | 显示全部楼层

    # E& V, r3 W, g$ \' @好东西 谢谢分享
    ! m5 D' z9 w9 l/ J  _. j' d

    该用户从未签到

    发表于 2021-9-27 09:15:39 | 显示全部楼层
    謝謝分享此
  • TA的每日心情

    2022-10-14 17:24
  • 签到天数: 52 天

    [LV.5]常住居民I

    发表于 2021-9-27 17:48:28 | 显示全部楼层
    感谢大佬分享,学习
  • TA的每日心情
    开心
    2023-12-31 23:26
  • 签到天数: 1286 天

    [LV.10]以坛为家III

    发表于 2021-9-27 21:59:55 | 显示全部楼层
    感谢楼主,多谢!

    该用户从未签到

    发表于 2021-10-3 14:54:37 | 显示全部楼层
    感谢楼主分享。
  • TA的每日心情
    开心
    2018-1-15 14:00
  • 签到天数: 39 天

    [LV.5]常住居民I

    发表于 2021-10-3 20:32:09 | 显示全部楼层
    看一看,感谢分享!
  • TA的每日心情
    擦汗
    2021-11-17 09:18
  • 签到天数: 79 天

    [LV.6]常住居民II

    发表于 2021-10-6 09:52:48 | 显示全部楼层
    muyuzhth0 发表于 2021-7-23 14:38
    ! s% d$ X" D+ g; f$ v4 F/ i& Ypython3.8.9调试成功!
    ' H* J6 p/ c: ?6 \* v1 q5 P, B- s4 K8 l4 t- S; Y7 ^
    做了如下修改:
    4 V# {3 k: m# l& y5 O
    (3) 在哪里加入
    1. current_path = os.path.dirname(__file__);current_path+"/OALD4_azure.txt
    复制代码

    % u- }3 {* l% q9 b8 y, a9 @3 M+ g, I
    我的版本是 3.9.7  ,目前没有遇到 No such file or directory 报错。 然后是genMDX_ox4.py 文件有部分中文乱码* y3 {2 l2 G  n+ q1 U

    ( f; o) T7 ]4 U+ d7 Y
    1. # -*- coding: utf-8 -*-: q; m$ s* M0 U8 C/ n1 T: [7 Z
    2. # encoding=utf8
      5 }& ^9 t9 J& e2 u

    3. 1 r: k) R% B( Q2 C! d, y  ?4 G
    4. from __future__ import unicode_literals,print_function, absolute_import, division6 B1 R; h1 _9 c0 g0 w
    5. 0 h; C* c; X- S7 D6 ]" G) h

    6. 6 y: Y1 c' b$ q1 o" B9 C
    7. import re; |3 @4 r" k) Q- K; B
    8. import copy1 ?( }9 X1 F) b' ?! i1 ^
    9. import chardet) i& F% @9 t- u$ b) U! m
    10. ! d3 ]. t( V) |& u1 i# ]% N
    11. import os. |$ d7 I% p) S. U* N) A
    12. import io0 T) g$ [) a6 o5 N- A* E
    13. import sys
      ( j. ^' a1 p% P& y9 u( _5 a( v
    14. # reload(sys)$ `! O7 d5 h4 \! ]: w- Z
    15. # sys.setdefaultencoding('utf-8')
      - n' o  [3 |$ V' n6 G0 {1 _

    16. 1 w( i: @8 O2 ~1 Q/ p
    17. import collections
      " F% {2 t1 `5 u- p6 C
    18. from collections import defaultdict5 S: t. e  }. A- M: p

    19. 6 l) c3 W; ~) t- D; |0 Q! L

    20. ! [, L9 \0 z, J* L3 W
    21. from writemdict import MDictWriter, encrypt_key
      6 Q0 ?3 c. ]- e( n% m
    22. from ripemd128 import ripemd128: h4 j% v$ P* G( h: j) C

    23. 4 U; n7 k- _3 w
    24.   D( k) u% t% T! |
    25. head = 0& c) t$ H6 Q: c: A6 [$ F
    26. new_mean =[]
      3 `* z& d& A& F" r
    27. f=io.open('OALD4_azure.txt', 'r',encoding='utf-8')7 w/ a+ |+ h9 o/ O$ _
    28. #f=io.open('oxford2_original.txt', 'r',encoding='utf-8'); |! w! k6 B4 g( t: G
    29. d = defaultdict(list) #����һ�����ֵ䣬Ҳ��ʹ��{}������
      ! s* o; s0 f& u( X
    30. for line in f: #ÿ�δ�f�ж���һ��
      6 `% g  v1 b  a, m* G) \
    31.     line=line.rstrip('\n')#ȥ����β�Ļ��з�
      0 _& f" ~( z  e/ M, p& u
    32.     if line == '</>':
      " D9 ^0 G9 Z9 v+ h
    33.         if head == 2:$ ^' N; l, z9 v7 q. S
    34.             new_mean[0:] = ["".join(new_mean[0:])]
      # Y2 E2 L) e( l# E: I( [7 {7 g/ w
    35.             d[word].append(new_mean[0])
      - {2 M! g2 V  `& D
    36.         head = 1;* i# [! S$ D% j# v1 ~' N3 |7 _5 a
    37.         new_mean =[]
      & V) p3 f/ }4 k+ c4 X. o9 `
    38.     elif head == 1:, p/ J! \, `" h$ x
    39.         word = line9 p% r, \5 c! V. y0 y/ s4 V
    40.         head = 2
      " J/ G5 l! d$ M/ \+ p9 s+ X4 ~: {' V
    41.     elif head == 2:
      , e0 M; A, G* b; x( B& c% n( j
    42.         new_mean.append(line)
      * S, Y2 c1 v9 V" t
    43.         head = 2
      6 g* K7 o: N0 a; i/ Y6 z! H: `
    44. f.close()
      : ]: E* {  i, Q& U9 s

    45. ' C6 d; a' Q$ v5 R. N- j4 D

    46. - }+ b! c) ]$ I) }, W
    47. ff=io.open('about_OX4.txt', 'r',encoding='utf-8')#�ʵ�about��Ϣ��txt�ļ��뱣��Ϊutf-8& S5 A7 x- b& |' w$ ^* H
    48. about=[]
      " B* j& C8 {: w7 n% Y  i
    49. for line in ff: #ÿ�δ�f�ж���һ��
      9 u7 g. A( ?/ j6 |1 B
    50.     about.append(line)" _/ ]5 R$ l* R! J, _
    51. about[0:] = ["".join(about[0:])]
      ' W. u- [8 H) e( G) l) Q. i8 ~

    52. ( e: @3 m& ]" G: Z1 ^# o
    53. 4 P9 C' n5 c, T  _3 h  h
    54. #outfile = open("example_output/��ţ��Beta_V2.2.1.mdx", "wb")
      6 w+ r7 O1 {6 s6 L
    55. #writer = MDictWriter(d, "��ţ��Beta_V2.2.1", about[0])/ ^) N, T" x. F
    56. outfile = open("output_ox4/OALD4_Ex.mdx", "wb")
      # x1 N6 C2 l/ H' Z$ m2 W
    57. writer = MDictWriter(d, "ţ��߽�˫��(���İ�)", about[0])
      6 ~' v- Q& r4 J$ j1 |7 [  P
    58. writer.write(outfile)
      5 t# |* E# l! f  y! D
    59. outfile.close()1 S7 |# `) d5 D% L- c; J) c! n
    60. - p- l  s! C: T; ^& A4 A" d
    复制代码
    " y; P3 x' A6 N/ H: B9 `
    " w# R6 f7 P+ C3 r
    & q; y. ]- O* \0 h6 d* ]0 }
    是否可以看看你的文档呢 乱码的部分中文写的是什么?
  • TA的每日心情
    开心
    2025-1-12 09:13
  • 签到天数: 334 天

    [LV.8]以坛为家I

    发表于 2021-10-21 15:49:49 | 显示全部楼层
    向大牛學習編程!

    该用户从未签到

    发表于 2021-10-22 14:47:53 | 显示全部楼层
    我也想要整一个
  • TA的每日心情
    开心
    2021-11-27 10:32
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2021-11-8 11:41:55 | 显示全部楼层
    感谢大神分享!
  • TA的每日心情
    开心
    昨天 00:50
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2021-11-8 12:07:00 | 显示全部楼层
    非常好,大赞
  • TA的每日心情
    开心
    2019-5-18 14:33
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2021-12-14 11:17:04 | 显示全部楼层
    thank for your sharing.
  • TA的每日心情
    开心
    2024-6-22 15:25
  • 签到天数: 179 天

    [LV.7]常住居民III

    发表于 2022-1-6 10:27:03 | 显示全部楼层
    thanks for sharing
  • TA的每日心情
    开心
    2023-7-26 00:08
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2022-1-28 22:45:46 | 显示全部楼层
    谢谢楼主大大,
  • TA的每日心情
    慵懒
    2022-2-10 12:51
  • 签到天数: 352 天

    [LV.8]以坛为家I

    发表于 2022-2-2 21:06:57 | 显示全部楼层
    正好需要打包大文件。谢谢了
  • TA的每日心情
    开心
    2022-3-22 20:13
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2022-2-3 09:43:15 | 显示全部楼层
    学习学习,谢谢分享
  • TA的每日心情
    开心
    2022-2-10 09:34
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2022-2-10 10:08:59 | 显示全部楼层
    元老玩家  感谢  感谢

    该用户从未签到

    发表于 2022-2-11 22:51:45 | 显示全部楼层
    楼主辛苦了,感谢您的付出!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-25 14:12 , Processed in 0.022044 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表