搜狗输入法背后不为人知的事情

捡漏得来的输入法创意
05 年左右一位技术工人上班时觉得现有的输入法不好用,很多词词库中没有,但搜索引擎却能协助完成工作:一些新新的词汇已被搜索引擎抓取。虽然他并不知道为和但是输入法没能做到这一点,但给百度写了封邮件,建议百度应该基于自己的搜索优势开发一款输入法。可惜当年百度正为上市做准备,2 周石沉大海后,他把简历投到了搜狗,搜狗输入法这样的时代就被开启了。

由云处理的网络词汇
06 年超女的爆发让「张靓颖」和「李宇春」等名词成为了流行词汇,搜狗输入法第一时间认出他们,被王小川认为是一个被压抑了很多年的朴素需求,不过当时的输入法却没有从搜索引擎的角度来考虑问题。

搜狗的云端语料库中已有 2000 万词组,他们将这 40G 的空间压缩到 80M,包含 40 万词汇保存在本地硬盘。为了让词组更好地搭配,他们在客户端中建立一元、二元、三元以及 trigger 模型并实时更新最新词汇,当你计算输入拼音串文字转换成文字的概率,觉得没自信的时候,就可以请求云端的服务,得到更高大上和更准确的结果。

帮用户做出「正确」的选择
搜狗在适应网民的传统习惯,和净化网络上找平衡。例如「骰子」,正确读音为「tou zi」,但大多数网民已经习惯了「shai zi」的叫法,搜狗的办法是,在输入两种读音时能都显示正确词汇,但输入「shai zi」后,还会提示正确读音为「tou zi」。

在帮用户抉择时,也会存在一定的主观因素。在火星文开始流行时,搜狗没有将其加入到输入法中,认为不过是个偏门的东西,对中文产生的玷污,宁可损失一部分用户量达到纯净语言的作用,但王小川回过头来在想这似乎没有对错,自己是不是阻碍了历史的发展?或许火星文没有继续流行下去,搜狗也有一定责任。

数据驱动修改键盘模式
搜狗发现使用手机输入法键盘时,每个人理解会不一样。原生全键盘输入法本身字母并非以中线对齐,分界线过小会使得两个点选块比较贴近,容易存在一块,做数据搜集之后我们会做一些改变。把 Andriod 默认的小写键盘改为大写,大写字母更宽,用户不会觉得特别窄,把之前连在一起的字把它分的更开,间距变大。部分 Andriod 开始并不理解,搜狗也受到较大压力。

对比之前之后热力的图,用户更加地聚焦。这个改进在 4.0 版本体现,重新统计了点击准确率后,其 86%提升到 90%。有一些工作靠理念,有一些靠数据驱动,数据驱动实际上需要顶住压力,解决数据与用户间产生的摩擦。

让机器学会识别人名
搜狗的人名模式是怎么产生的呢?一个班级里的老师把全班同学的名字都录入进去是很困难的,也不是靠搜索引擎词库能解决的。搜狗通过人人网数据的合作,利用学校人名的抓取,把中国人取名字规范规则给它搜集起来。起名字也能找到它的规律,比如取名王建军,建和军放在一块一定是建设的「建」,而不是健康的「健」。一旦机器让它学会在大量的数据驱动之下比个体更加准确。人名模式上线后,第一要识别人名,第二个把规律组织起来,达到 80%的正确效率,13 亿人名里面第一次有 10 亿人名字可打出来。

翻页和纠错的设计
传统找词模式需要点击大于号翻页,但是常常翻好几页找不着,看漏了,又回翻。搜狗现在新设计采用平铺式,使一屏可以看到更多的内容,减少你回转的状态。

我们看到用户按的最多的键是空格键。退格键(back space)排在第二。一旦样本级的用户群按退格键,搜狗则认为自己没有处理好用户的需求。后来纠错的能力,其实本身有两种做法,一种做法是默默地帮你纠正,也不告诉你打错了。一种做法是帮你打出来了,并提示争取词组。王小川选择了第二种,在证明自己能力的同时还是要刷存在感的。

除了以上种种创新,在新版本里可以输入表情,语音输入,当你输入上半句的时候,它会帮你想下半句,有的沿用古诗词,有的是涉及文化创作,帮你写对联。

作为输入法总结,王小川认为,公司需要做大的需求,在主路径上创新,思考为什么是你来解决这个问题,深刻理解用户,但不要盲从,打破常规的思考,数据敏感,看似主观的问题也有数据说明,快速低成本试错。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据