[错误] mdxbuilder总是提示:Content is longer then 8388608 at position:...
今天尝试排版汉典,结果打包的时候总是提示错误。即使是 MdxExport.exe导出的原始txt文件-不修改,仍然提示这个错误,使用的大文件的mdxbuilder版本也是不行。看到这个帖子中提示的类似的错误,但是txt文件中并没有类似的格式错误。。。
有没有遇到的呢?
Begining loading source file...
Content is longer then 8388608 at position: 0 of the source file
Failed to load source file, process cancelled
如下图:
流星冲击 发表于 2018-11-8 16:11
提供测试方案:
提取:用MdxExport3.5或者python版readMdict生成txt。
写入前:复制原始txt的全文内容到一个新 ...
厉害,使用MdxExport3.5 打开mdx文件时,就发现问题了。——mdx竟然时用UTF-16压缩的。——平时使用mdxbuilder都是默认选择utf-8。
----------------------
另存txt文件为utf-8 ---搞定!!!
-----------
谢谢 如果不是源文件格式错误的话,尝试着用低版本的mdxbuilder,最新的好像方方面面的自成一套.原有的拆包打包的都是基于旧版本的mdxbilder lgmcw有完美的python生成mdx脚本,你找找看他 本帖最后由 流星冲击 于 2018-11-8 16:57 编辑
提供测试方案:
提取:用MdxExport3.5或者python版readMdict生成txt。
写入前:复制原始txt的全文内容到一个新建的空白文件再另存为,最后才写入。这一步是确保编码没问题。
写入:词条自动排序用mdxbuilder 3.0 beta2,词条自定义排序用python版writeMdict。 greatszh 发表于 2018-11-8 15:42
如果不是源文件格式错误的话,尝试着用低版本的mdxbuilder,最新的好像方方面面的自成一套.原有的拆包打包的 ...
尝试了2.13.0(含大文件版本)4.0版本,都是出错。。。
伤 流星冲击 发表于 2018-11-8 16:11
提供测试方案:
提取:用MdxExport3.5或者python版readMdict生成txt。
写入前:复制原始txt的全文内容到一个新 ...
謝謝流星 兄 總是能及時的指點迷津排憂解難{:4_105:} Content is longer then 8388608 at position: 0 of the source file。
我也出现了这个问题,兄弟,你是怎么解决的。 删除空格
Emeditor:
•Default Menu: Edit > Convert Selection > Remove Empty Lines 我今天也碰到这个问题了,原因是词条内容行太长,最长的词条内容行有190万字节长,后来把词条内容行长缩到40多万字节以下就可以转了 wyzh97 发表于 2018-11-8 16:44
厉害,使用MdxExport3.5 打开mdx文件时,就发现问题了。——mdx竟然时用UTF-16压缩的。——平时使用mdxbu ...
我也遇到到了这个问题,虽然你的问题和我的不一样,但还是受到了启发,多谢!我出这个问题是因为文件不是Windows CR LF换行,不知道为什么存成了Unix形式的换行 MdxBuilder 中编码设成 UTF-16(Unicode),就能顺利把《汉典》从txt变成mdx
https://www.cnblogs.com/fnlingnzb-learner/p/6163205.html wyzh97 发表于 2018-11-8 16:44
厉害,使用MdxExport3.5 打开mdx文件时,就发现问题了。——mdx竟然时用UTF-16压缩的。——平时使用mdxbu ...
在MdxBuilder 中编码设成 UTF-16(Unicode) 错误就没有了
https://www.cnblogs.com/fnlingnzb-learner/p/6163205.html
……
反过来 UTF-8 也不完美,也存在一些问题:
文化上的不平衡——对于欧美地区一些以英语为母语的国家 UTF-8 简直是太棒了,因为它和 ASCII 一样,一个字符只占一个字节,没有任何额外的存储负担;但是对于中日韩等国家来说,UTF-8 实在是太冗余,一个字符竟然要占用 3多个字节,存储和传输的效率不但没有提升,反而下降了。所以欧美人民常常毫不犹豫的采用 UTF-8,而我们却老是要犹豫一会儿……
页:
[1]