本文转自玻璃锅《输入法词库之争 一个开发者的看法》
作为一个技术工作者,Google给我的一贯印象是:顶级的技术,严谨正派的作风,创造力的源头。作为搜狐公司的一员,我对google拼音的心情是充满矛盾的。一方面,Sogou拼音输入法的创意被Google跟风,无疑是一种认可,证明了我们当初选择的正确性;另一方面也意味着更加激烈的竞争。然而,后来的事情确实是所有人都万万没有想到的。
网上的讨论很多,作为开发者我闭着眼睛也能举出无数证据出来,但这不是今天写这篇博客的目的。先解释一下我在前一篇博客中说过的引起争议的那句话:
gpy的一些功能,sogou不是不能做而是不敢做,怕被人骂流氓,十年怕井绳呀。不过google开了个头就好办了……
郑重声明一下,流氓行为Sogou输入法从未做过也永远不会做,但由于Sogou曾经有过不良的记录,使每一项功能都非常小心,避免产生争议。即使是这样,一些不周到的环节还是被用户质疑。例如,自动更新词库设置和自动更新输入法设置容易混淆,一些用户认为Sogou输入法在关闭升级选项后依然自动升级,是流氓行为;用户卸载后我们发送了一个pingback用于卸载计数(向服务器发送一个包),是流氓行为;右键菜单里面有搜狗搜索的条目,是流氓行为;更不用说各种杀毒软件对我们的误报了...... 简而言之,遍地是雷,步履蹒跚。但google输入法完全没有这些问题,一键搜索,网络词库同步,捆绑工具条......网上纷纷较好,赞誉一片,我们心里那叫一个酸呀,要知道这些创意只是Sogou输入法庞大产品创意库中的一小部分......一时眼红,才有“google开了个头就好办了”这句话,没想到被转载的到处都是,受到很多人的批评,向各位道歉了。
不得不说,sogou和google就是这样一个不平等的状态,这也是我们必须一直面对的问题。
另外,用户在网上的讨论出现什么内容都很正常,也有很多人为google输入法辩护,这都可以理解,但有两句话我实在是不能接手听不惯:a) 词库又不是代码,抄抄有什么了不起;b) google用了你的词库,你一定也用的别人的词库,谁也别说谁。这两个问题我实在是不吐不快。我在sogou待了很多年,经历了搜索引擎和搜狗输入法两个产品的开发,全程参与了sogou词库从无到有的过程,相信是最有发言权的人之一。
sogou词库最早的需求来自sogou搜索引擎,从互联网上抓取网页后,用特定算法进行统计分析学习得来,在sogou搜索引擎成长和发展过程中不断的积累,这是sogou输入法词库的前身。但搜索引擎的词库不能完全满足输入法的要求,毕竟搜索和输入两个应用差别太大。
为了得到更好的词库,我们做了相当多的工作。首先从搜狐的兄弟部门取来了各个领域的资源(名人,歌曲,房产,旅游,财经,体育,....),集成处理后得到覆盖各个领域的词库;再通过网页新词发现模块的完善,挖掘出更多的新词,这才得到一个基本可用的词库。但这个词库还存在很多问题,网民输入的随意性导致错词和垃圾词很多,我们实现了较复杂的算法,通过规则和统计进行过滤。之后是注音环节,互联网词汇(特别是新词)是不包括读音信息的,对于多音字的情况需要通过算法进行自动的读音标注。最后,选择合适的语料库,得到词频(决定词序)。以上过程中,需要大量的代码编写和长久的维护工作。
词库是个很复杂的问题,通过程序是没法自动解决所有问题的,这也是为什么词库中会出现(pinggong冯巩)和(蝴碟)。为了解决这些错误,一方面我们改进程序使正确率不断提升,另一方面人工对这些词进行检测,编辑有时候需要一次性处理数千词。sogou每周都会发布错词报告,纠正词库中的错误。可以说,如今的sogou词库凝聚了开发人员,测试人员,编辑人员的心血,也是sohu内部资源整合的结晶。从某种程度上来说,google输入法使用 sogou输入法词库,说明了sogou输入法词库的优秀。
总的说来,这件事情是令人失望的,对g粉们是这样,对sogou而言也是这样。以google开发人员的聪明才智和google近乎无限的资源,google依然有能力成为一个优秀的输入法,我们并不畏惧竞争,只是希望这样的竞争更公平,更堂堂正正一些。
2007年4月7日星期六
搜狗拼音输入法开发者谈输入法词库之争
订阅:
博文评论 (Atom)
1 条评论:
请点击此处:发表评论