搜狗输入法背后不为人知的事情

捡漏得来的输入法创意
05 年左右一位技术工人上班时觉得现有的输入法不好用，很多词词库中没有，但搜索引擎却能协助完成工作：一些新新的词汇已被搜索引擎抓取。虽然他并不知道为和但是输入法没能做到这一点，但给百度写了封邮件，建议百度应该基于自己的搜索优势开发一款输入法。可惜当年百度正为上市做准备，2 周石沉大海后，他把简历投到了搜狗，搜狗输入法这样的时代就被开启了。

由云处理的网络词汇
06 年超女的爆发让「张靓颖」和「李宇春」等名词成为了流行词汇，搜狗输入法第一时间认出他们，被王小川认为是一个被压抑了很多年的朴素需求，不过当时的输入法却没有从搜索引擎的角度来考虑问题。

搜狗的云端语料库中已有 2000 万词组，他们将这 40G 的空间压缩到 80M，包含 40 万词汇保存在本地硬盘。为了让词组更好地搭配，他们在客户端中建立一元、二元、三元以及 trigger 模型并实时更新最新词汇，当你计算输入拼音串文字转换成文字的概率，觉得没自信的时候，就可以请求云端的服务，得到更高大上和更准确的结果。

帮用户做出「正确」的选择
搜狗在适应网民的传统习惯，和净化网络上找平衡。例如「骰子」，正确读音为「tou zi」，但大多数网民已经习惯了「shai zi」的叫法，搜狗的办法是，在输入两种读音时能都显示正确词汇，但输入「shai zi」后，还会提示正确读音为「tou zi」。

在帮用户抉择时，也会存在一定的主观因素。在火星文开始流行时，搜狗没有将其加入到输入法中，认为不过是个偏门的东西，对中文产生的玷污，宁可损失一部分用户量达到纯净语言的作用，但王小川回过头来在想这似乎没有对错，自己是不是阻碍了历史的发展？或许火星文没有继续流行下去，搜狗也有一定责任。

数据驱动修改键盘模式
搜狗发现使用手机输入法键盘时，每个人理解会不一样。原生全键盘输入法本身字母并非以中线对齐，分界线过小会使得两个点选块比较贴近，容易存在一块，做数据搜集之后我们会做一些改变。把 Andriod 默认的小写键盘改为大写，大写字母更宽，用户不会觉得特别窄，把之前连在一起的字把它分的更开，间距变大。部分 Andriod 开始并不理解，搜狗也受到较大压力。

对比之前之后热力的图，用户更加地聚焦。这个改进在 4.0 版本体现，重新统计了点击准确率后，其 86%提升到 90%。有一些工作靠理念，有一些靠数据驱动，数据驱动实际上需要顶住压力，解决数据与用户间产生的摩擦。

让机器学会识别人名
搜狗的人名模式是怎么产生的呢？一个班级里的老师把全班同学的名字都录入进去是很困难的，也不是靠搜索引擎词库能解决的。搜狗通过人人网数据的合作，利用学校人名的抓取，把中国人取名字规范规则给它搜集起来。起名字也能找到它的规律，比如取名王建军，建和军放在一块一定是建设的「建」，而不是健康的「健」。一旦机器让它学会在大量的数据驱动之下比个体更加准确。人名模式上线后，第一要识别人名，第二个把规律组织起来，达到 80%的正确效率，13 亿人名里面第一次有 10 亿人名字可打出来。

翻页和纠错的设计
传统找词模式需要点击大于号翻页，但是常常翻好几页找不着，看漏了，又回翻。搜狗现在新设计采用平铺式，使一屏可以看到更多的内容，减少你回转的状态。

我们看到用户按的最多的键是空格键。退格键（back space）排在第二。一旦样本级的用户群按退格键，搜狗则认为自己没有处理好用户的需求。后来纠错的能力，其实本身有两种做法，一种做法是默默地帮你纠正，也不告诉你打错了。一种做法是帮你打出来了，并提示争取词组。王小川选择了第二种，在证明自己能力的同时还是要刷存在感的。

除了以上种种创新，在新版本里可以输入表情，语音输入，当你输入上半句的时候，它会帮你想下半句，有的沿用古诗词，有的是涉及文化创作，帮你写对联。

作为输入法总结，王小川认为，公司需要做大的需求，在主路径上创新，思考为什么是你来解决这个问题，深刻理解用户，但不要盲从，打破常规的思考，数据敏感，看似主观的问题也有数据说明，快速低成本试错。

Ityen

搜狗输入法背后不为人知的事情

发表评论取消回复

技术在分享中进步！

发表评论 取消回复

技术在分享中进步！

发表评论取消回复