7 q, X( D0 `- f' `
深有体会。前几天试做 Roget's Super Thesaurus, 4th Edition,首先从PDF提取内容就困难重重。 H. S0 V% Y9 z
pdftohtml、pdf2htmlEX、Pdflib TET、Solid Converter 提取的xml或html各有各的问题,最后还是 Adobe Reader 提取出 txt 自己加格式,但 PDF 里的 small caps 没法保留格式,导致释义和synonym混在一起,没法区分,只能放弃。