|
发表于 2015-1-28 18:09:49
|
显示全部楼层
欢迎princesssisi来质疑海词的行为。7 r* P; {0 D- r T
海词在2003年刚发布的时候,只有3000多个单词的简单释义。我并没有想过给别人使用,只是给自己和印第安纳大学化学系的一些朋友尝试使用。随后在2003年的印第安纳大学中国留学生春节晚会上,我介绍了这个网站后,很多感兴趣的留学生主动和我探讨未来发展计划并且愿意提供帮助。在计算机系的同学以及语言文学系的同学支持下,我们仿效当时最流行的维基百科发展模式,期望建立中国人自己的维基语言表达资料库,比如提供“宫爆鸡丁”等传统词典找不到的表达方式。于是我和一些同学开发了一个人人可以直接修改词条的维基程序,任何人都可以在线贡献词条和改进词条。我老婆和学生会的一些好朋友都曾深度参与这个互联网公共知识库的管理工作,虽然大家平时都有很多工作,但是都觉得这是一件非常有意思的事情。
3 W7 R$ Y7 [5 M这个项目所有人都是公益参与,我们没有任何商业想法。因为当时域名dict.cn是我申请的,想法是我发起的,所以成为项目负责人。这个不经意的举措,之后的发展却远远超过我的预期。2004年的时候,作为当时全球唯一的中文界面在线可查单词网站,我们成为北美留学生最受欢迎的在线工具之一,很多大学的图书馆里,留学生都是一边打开海词网,一边阅读论文。在查不到的词条界面,我们会给出所有知名英文在线词典的链接以及几大搜索引擎的链接,很多人会在不得不打开晦涩难懂的英文在线词典网页并仔细理解意思后,顺便给海词填写一个中文释义。我们的服务人气很高,最多的时候,我的邮箱一天能收到100多封用户发展建议来信。甚至几位澳大利亚和英国的词典行业前辈都写信与我们做了一些专业指导。尤其是澳大利亚的一位退休老先生,不仅给我们提供了他珍藏的大量翻译资料,并且还发给了我们很多牛津和朗文发表的词典学术论文。在阅读这些论文的基础上,我们才逐渐理解什么是好的词典,有哪些新方法可以改进词典,牛津朗文柯林斯都有哪些词典学进展。于是我们开始憧憬着通过自己的努力,用现代的语言统计技术做出中国人自己的牛津词典,至少远远超过中国传统词典的效率和质量。/ m# N/ J. M" ?' v4 ^
愿望是美好的,现实是残酷的。虽然我们在2005年的时候就已经基本用上全球所有可以找到的平行语料库(包括庞大的中文学术论文的中英文摘要对照库),但是语料的噪音一直非常大,导致统计错误率很高。不过好处是:我们从人工创建的近2万个词条,一举扩充到了近500万的词条。如果有人认为我们的词典是靠抄袭哪个传统出版社词典,那么大家可以了解一下,2005年的时候,绝大多数出版社都没有实现数字化词典,而且对于传统词典,一般很少有超过4万个词目的词典。所有的词典都没有这么大的词汇量。金山词霸是在2005年开始上线网站的(一个模仿海词界面的查询页面),他们当时很多常用单词都查不到。, x- K, p* r' i* ?8 r, Z
海词虽然量大,但是海词词典的错误率非常高,之后的很多年,很多网友都在查看海词解释后还需继续查看海词同步提供的在线英文词典网站并帮助海词改进词条。我们的语料统计另外一个收获是:海词创造了一个最先进的优质例句评价函数,每个例句都是根据统计结果精心优选,并且应用了很复杂的权重体系,成为之后在很多年里,唯一一家不仅提供解释还提供优选例句的在线词典网站,因此用户对海词的好评非常高。
- t* g' ?1 c% `( w: u之后在2006年到2008年间,海词遇到了蓬勃发展期。首先是我们受到了网易有道搜索引擎青睐,期望在他们新开发的搜索引擎中内嵌词典搜索。因此我们与有道签署了独家词典合作协议,我们提供词库和词典程序为有道搜索增加服务吸引力,有道帮助我们在中国市场推广品牌并支付我们服务经费。一年后百度搜索、腾讯搜搜也和我们签署了词典服务合作协议。其中百度还给予了我们几十万的关键词推广经费。英语等百度关键词会直接引导用户到dict.cn海词网站。/ j5 P6 _1 w1 f1 E$ C* H# H
我们当时想,如果海词能够专注内容建设,不断改进词典,那么以后通过词典授权就能盈利,但这个想法后来被有道搜索的调整方向断绝了希望。
& e/ S1 i2 |, _1 w, |我们是与有道签署了不准同业竞争的条款,由我们同步更新词库给他们,他们不允许自行修改任何数据和提供除我们之外的其他第三方词典内容。在合作4年,有道积累了足够多的用户后,从合作最初答应我们“绝不做词典”“搜索引擎才是我们的目标”,突然大力推出“网络萃取释义”技术的有道自有词典,同时投入大量客户端推广资源来抢夺词典用户。我们当时就找了好几个律师,发现有道在刚推出“网络萃取释义”的时候,基本上把所有释义的顺序都打乱为和海词不一样,并且个别词条还有删减释义的变化。律师说必须申请法院封锁服务器来鉴定,并且劝我们:在中国最难告的就是大公司。海词最后给有道的同步更新是2010版海词词库。; Z9 l1 I3 D+ P8 ?! R4 B
2008年我在博士毕业后回国创业,以前我们的词典有数不胜数的错误释义,因为我们都没有能力人工改进,所以一直都不能及时处理。回国后海词立刻组建国内的全职编辑团队处理词条修订,支卿是第一个项目负责人。海归林皓博士在2009年加入海词后,成为我们的第一任正式词典主编。在林博士的主持下,我们制定了有计划的、系统的修订制度,并制定了统一的海词词典释义规范,同时利用程序统计出了用户查询频率最高的3万个词条,并开发了一套远程协同编纂系统,招募了6个全职二审三审编辑,60多个远程兼职编纂编辑,逐个词条进行审核和修订。这项工作历时三年,前前后后开发了3套协同编纂系统,修改了2次释义规范。我们不但人工修订了几万个词条的释义,还人工精选了1万多个词条的例句。来我们公司面试过的复旦、交大、上外、华师大的英语系学生就超过200个。学生们会通过“在线编辑水平考试”进行初选,合格的会被召集到我们公司进行临时编辑规范培训。我们一个任务包15个词条,价格为20元。学生可以在学校可以远程申请新任务包,在线远程修订,我们当时主要参考依据是英英的mw词典和牛津等词典,通过使用我们自己的统计数据,确定释义的增补和删改,或者例句的优选原则。在这个过程中我们反复向编辑强调:严格禁止任何直接参考已有的英汉词典的方法来审定词条。有很多学生可以获得每月1000多元的编辑费用。另外针对于非高频词汇,如果有用户质疑的,我们也会安排进入编辑任务。 m ]" w! H( I- t& x% K/ K
每一批内容在修订后,我们都会申请著作权,几年来总共获取了8个词典作品的著作权。. {: F$ Z% M/ s9 F
我们非常欢迎将海词词典释义、例句、讲解、人群释义精编(包含小学中学大学不同版本)等等内容与所有传统出版社的内容比对,这些都是我们根据自己的产品规划和需求分析独创的。与此同时,为了能快速提高英汉词典质量,我们还花重金购买了2部原面向学生群体词典的互联网版权独家使用权,用于增加搭配和辨析等栏目的内容。3 }; ~6 h. D! a9 S* T# A( B
2010年下半年,林皓启动了海词的汉语词典编纂计划,期望为海词增加汉语频道。从此我们进入了编纂之路的尽头。虽然花了大量精力,海词汉语词典最终也在完成部分数据后勉强上线(我们绝不抄袭,欢迎比对数据,因为我们制定的编辑原则就是与“别的词典”不同),我们开始意识到自己开发非英汉类词典的道路是不通的。6 e- N$ E' J: `7 |3 ~; X
编写一个词典是很不容易的,仅仅管理编者就是一个大工程。从制定词目规范到一审二审三审,既需要最有经验的人才,又需要长期坚持的劳动。如果编者的劳动得不到回报,那么人才就会不断流失。海词的协同词典编纂系统得到了上海市创新基金的资金补助,但这些补助非常有限。虽然有高效率的系统存在,以及只雇用低成本兼职学生,我们的编辑、员工等投入还是非常高昂的。而相比传统出版社,他们要开发的成本绝对更高。如果免费服务,那出版社的人也要钱来吃饭啊。& }- J9 r& G( d% ~* C
|
|