王小川：只有掌握语言 AI才能具备创造力和推理

作者：沈知涵

如果用一句话概括搜狗一直在做的事情，那就是让表达和获取信息更简单，而这两件事情又都起源于一点——语言。

过去，搜狗用搜索和输入法以语言为核心帮助用户做输入和输出。

如今，这两条线正在无限延伸，构成了搜狗的语言 AI 战略。

其一，是以语言为核心的自然交互。王小川称这是机器通过深度学习之后产生人的「感知」能力。

王小川在现场展示了搜狗新的降噪算法，传统录音硬件对于噪音的识别更多是通过麦克风矩阵来实现的，而今天搜狗的工程师通过对现实场景中 4 万种真实噪音的学习，让机器有了分辨噪音的能力。王小川表示这项降噪技术也将会应用在新一代的录音笔中。

得益于在 OCR 识别、唇语识别和语音识别、语音合成、语音变声多项技术上的积累，搜狗的自然交互能力已经逐渐实现了在 AI 录音笔、合成主播等方面的实际商业使用。

其二，是在语言之上提取出跟语言的关联关系，让机器产生人的「认知」能力，王小川称之为知识计算。搜狗在 GeekPark IF X 发布了行业首创的多模态同传，在听的过程中，机器能够实时阅读 PPT，将它所看到的内容拓展成知识网络，在听和看的基础上，又多了思考的一步。随着知识计算能力的提升，搜狗未来将在知识性问答、医疗助诊、智能助理等领域里面注入更多 AI 能力。

在 GeekPark IF X 上，王小川分享了围绕着 AI 战略搜狗近期的探索和积累，以及他所构想的语言 AI 的未来。而他又将如何一步步驶向那个终点？

以下是搜狗公司 CEO 王小川在 GeekPark IF X 的演讲，经极客公园编辑整理：

张鹏说今天要谈一下未来 10 年（2020-2030 年），还要求我带来一些硬货，谈未来 10 年一定会谈到 AI。

首先从我们最近发布的一个硬货开始，就是搜狗出品的 AI 录音笔，录音笔是今年上市的，我很高兴这个录音笔已经被市场接受了，极客公园基本上人手一支，不是我赠送的，是他们掏钱买的，同时也有了很多的复购率。

录音笔是一个很小众的市场，但是因为有了人工智能的加持，录音笔变成今年电商中间的一个小爆款。搜狗 AI 录音笔相对传统录音笔，不仅有麦克风的矩阵，同时还有 AI 降噪、实时转写文字、云端的存储和搜索、智能编辑、同声传译等功能。所以，这个产品上线之后把整个市场改变了，像索尼、爱国者、纽曼都跟搜狗成立了一个联盟，而搜狗成为了联盟的盟主。

这个产品上线之前，整个录音笔市场销量逐年下滑，市场保有量只有 400 万支，但是今年 3 月份的时候，搜狗上线录音笔第一代产品，出现了一个奇怪的现象，主流电商平台的录音笔搜索量开始有了上升，到 12 月份我们发布了第二代录音笔，也得到了很多好评，所以搜狗开始一点点的变硬。这件事情就像之前手机从传统走向智能一样，而且有了 AI 能力的注入，会带来一个新的改变，AI 注入之后对于 C 端消费品有了一些变化。

谈到硬件我个人有一些观点，大家谈的比较多的是音箱，我基本的判断是人工智能对于硬件的助力，使得硬件方向有两大趋势：

第一，会变得更加便携。以前放在桌上的 PC 机很大，随后智能硬件开始走向笔记本、iPad、手机，甚至开始走向穿戴，因此未来个人硬件的趋势是越来越移动化、便携化。

第二，更强的 IO 能力。从之前的计算能力走向传感器能力、基于 AI 的处理能力，从人去适应机器变成机器去适应人，最后机器开始接管你的感官成为人的助力。

智能硬件从以前的手机开始走向手表、耳机、到未来走向眼镜，这是我对于未来 10 年路径的一个畅想。这有可能会改变我们以手机为中心的方式，我相信在 10 年时间里面，很有可能眼镜和耳机会取代手机作为我们接触外界信息的通道，这就是 AI 未来对硬件产生影响的变化。

硬件背后，是人去接受这个世界。除了有图像和语音之外，很重要的一个事情就是语言。其实一只猫或者狗都会有图像和声音的处理能力，但是惟有人能够处理语言，语言是我们与世界交互的一种抽象的方式。

就像亚里士多德讲到的，语言是心灵印象的符号，而且是人类思维的工具，是知识的载体，并且有了语言，人类社会才能沟通交流。不管是我们生产语言，还是计算机处理语言，语言是最难的一件事情，语言是人工智能皇冠上的明珠。

在图灵测试里面提到，机器能够用语言与人交流，就代表它拥有智能，今天我们的人工智能还不具有创造力和通用的推理能力，但是我们可以去做这样的一个猜想，只有当它掌握了语言之后，它才能够完整的拥有创造力和推用的推理。如果有机器能够跟你对话，你就会觉得它具有智能，因此语言在智能当中是有极其重要的位置，也是人跟动物一个重大的区别。

我们会看到以语言为核心变成了我们去思考人工智能发展路径的关键节点。搜狗做输入法、搜索，其实就是处理语言的，也是帮你更好的表达、更好的获取信息。今天我们虽然提到有语音、图像，但是别忘了核心是语言。

语言往下我有两部分分享：

第一，自然交互。自然交互让人跟机器之间能够用语音、图像、手势各种方式产生交流，其中用到了语音、图像技术，包括视觉的技术。

第二，认知问题，我们叫做知识计算。基于语言，机器能够做问答和对话，机器翻译是认知技术入门的门槛。有了更好的感知技术，机器会从手机走向新的智能硬件，有了更好的认知技术，机器对知识产生理解和推理，尤其是在垂直领域拥有问答的能力。新的硬件形式和新的对话和问答能力，智能硬件未来会走向智能助理，这也是整个 AI 行业在产品层面上面最明珠的地方，苹果大概在 2006 年就开始推出这样的能力。到今天 Google、百度、阿里、小米做这样的音箱产品，其实内核都是在做智能助理，只是外壳上我认为不是最好的方向。

布局的时候，从语音图像有大量的技术要去做，包括语音识别、语音合成，包括了搜索独有辨识的能力，往下可以作为展开，我把一些搜狗走在行业最前沿的点，给大家做一个简单的汇报。

语音识别这是自然交互里面最自然的事情。搜狗输入法今天我们做到了每天超过 8 亿次的使用量，而且上升的很快。我最近批了一批服务器，在春节期间的时候可能就会超过 9-10 亿次的日请求量。我们也积累了大量的数据，包括了语种、方言各种能力。

语言识别听着很简单的一件事情，其实并不是纯粹的单点技术，在识别过程当中，对于语音、语义的理解还有哪些点需要攻克的呢？

在刚刚播放的视频中，首先，大家感觉到有人声的分离，机器能识别不同的人，能动态的去判断这是第一个人还是第二个人。第二，做掌声、笑声或者其它声音的识别，帮助我们理解内容。第三，中英文混合，这是非常难的事情，从传统的深度学习网络数据中，得不到一个混合的模型，这里面会加入一些特定知识，来改变这个系统。

在这个识别背后还会有更复杂的技术需要我们解决，我们做录音笔时会考虑很多问题，其中一件事是在嘈杂环境里怎么让机器听清人的声音，帮助后面的识别，这是我们最前沿的技术。

传统的硬件是用麦克风矩阵实现的，用多个麦克风进行中间的数字计算、信号处理，今天依靠人工智能，我们有了新的方法，搜狗的工程师在现实场景中对 4 万种噪音进行了学习，使得机器有能力分辨噪音。

在这个视频中，原始的机器识别、处理是不够的。为了让录音笔、声音的交互更好，我们有了新的算法，（降噪）技术在实验中已经完成了，期待在以后新款的录音笔当中能给大家带来极致的 AI 体验。

从语音识别里面我们往前做了很多前沿的事情，除了语音识别还有一个重要的领域，就是语音的合成，在语音合成的时候，今天大家听过了林志玲、高晓松的声音，语音可以惟妙惟肖，用人的音色做表达。

但是，当你做长篇演讲、音频付费节目的时候，传统机器所合成的声音情感是不足够的，搜狗是全球首次实现用机器模拟人，在得到音频课程的整节课程中完全用机器合成，大家听一下这个声音。

（播放视频）这个不只是声音跟梁宁很像，更难得的是让一半的听众没有意识到整篇文章不是她本人读的。因为一篇文章在音频付费节目里面，已经是一个表演了，对节奏把握、情感的输出要求很高。

技术做的多的同学都知道，以今天的 AI 能力，机器不会有如此精准的认知理解，所以这个里面我们用了另外一种技术，其实是一种声音的皮肤，把梁宁的声音变成一种声音皮肤，技术上称为特征的提取能力，可以让另外一个人读这篇文章，再把声音皮肤附到这个声音里面来，使得合成的声音可以表达他的情感，经过合成之后，最后由梁宁来呈现。

这种做法之后可以改善整个音频节目生产的环节，表演者和生产者做到一定的分离，以避免人员离职等等带来的各种困难。加上声音皮肤，大家可以假想有蜡笔小新、高晓松，也可以模仿一些带有方言的声音。

这种情况下，有个电影叫《头号玩家》，使得我们现在每一个人在互联网上，不仅可以换成其它的形象，也可以换成自己想要的一个声音的形象。在生活中也有实际的用处，我们马上开年会了，如果我要表演唱歌，作为一个五音不全的人怎么来做呢？这是我自己的声音做的提取，然后可以加上《蓝精灵》里面唱的一首歌，比我自己唱的好听。

这样一些技术，也使得在交互中间能够做到了人机本身的结合，使得这样的制作能力能够有放大。在这里面除了我们提到声音的识别、合成以外，我们也做了一些更前沿的工作，是从语音走向了视觉，因此我们提到了搜狗分身，这是我们产品上一个重大的进展。这个产品发展到现在经历了多次的技术迭代，从最早的给新华社所做的主持人，到后来可以做到央视的主持人，到第二代能够让它更丰富的表达，第三代能够站起来有手势，到第四代之后就开始做到了多语言、多场景的播报能力，然后到了第五代之后开始能够做交互，比如平安普惠的保险项目，后面的服务人员已经被机器取代了。实际你在保险签约的时候，是机器人更你做交互回答。我们很快发布的是第六代拥有大角度、大幅度的动作能力，这是天气预报的播报，大家可以看一下。

这样的技术在今年发布之后已经得到了全球 200 多家媒体的的广泛报道，也是机器在取代人上面的一次重大应用。所以，这里面我们可以看到，从语言为核心，背后配上了语音、人的表情、肢体、唇语，能够使得人机的交互，走到更自然的状态。

除了最简单的感知问题以外，我们也在认知里面做了非常多的积累，刚才我们提到了翻译是中间最简单、入门的门槛，这里面我们做了很多的积累，这个问题很重大，而且我们现在做的也非常的努力。全球 20% 的人口是说中文的，中文是第一母语的国家，英文作为母语的人口只占全球的 4%，是第四大语言，印第语和葡萄牙语也比英语大。

但是，在这种情况里面，我们全球 95% 的信息是用英文所写的，100% 的国际商贸活动是用英文的，因此如何帮助中国人跟外国人进行更好的交流，这变成了一个重大的技术课题，我们作为做输入法、搜索以语言为核心的公司，投了很多的力量来做相关的积累。

所以，2016 年在第三次世界互联网大会上我们行业首家发布了大会的同传，2017 年搜狗发布了英文搜索，你用中文词能搜索全球的英文信息，搜索结果用中文展示出来。在第四届互联网大上，我们首个实现了深度学习的离线翻译，以及有英译中功能的同传，2019 年 1 月份在极客公园大会上英中同传首次发布。

到今天我们会发布新一代的同传给大家，从 2017 年的同传到 2018 年的个性化，今年我们做的是这样一个多模态和自主有学习能力的同传，真的同传人员不仅是听声音的，他会去看你的这样一个 PPT，我们今天这场会的同传就是机器实时阅读我的 PPT，同时识别中间的文字，并且把它转化成知识图谱，拓展它的知识边界，就好像一个人一样，看到我说了深度学习，就想到你可能会说卷积神经元网络，随后是在知识库查表，能找到中英对话实时加载的知识。

所以，从以前能听、会看的多模态，到现在这样一个同传系统，它带有一些简单的思考能力，通过知识图谱能够实时的把它看到的东西拓展成知识网络，放到同传生态系统中去，利用这样的技术，搜狗同传的翻译正确性提升了 40%。

这张图展示的是通过视觉技术能够实时看到的词汇，同时把它拓展成相应的知识，变成平行的语料，和传统同传系统做融合，这就是知识计算在同传当中首次的重大应用。

同样在知识计算之后，我们强调一个核心观点，就是机器做阅读理解之后做问答，传统的搜索是通过关键词给你 10 条链接，随着技术的进步，我们整个处理能力会从词变成句子、段落、篇章，用户的表达也可能会转换成句子，机器的阅读理解也会走向篇章和整个文章体系，这是技术进步带来的机会。

好几家做音箱的公司也是尽可能把问答技术做到设备里去，因此在明年大家会看到一款新的搜索产品诞生，这件事情就不是用关键词对应 10 条链接了，而是在问答里面走出重大的一步，我们可以看一个简单的 demo。

这是早年间的一个系统，这个系统并不能做到对知识推理的理解能力，更多是找到事实类的问题，但是它很厉害的地方不是简单从数据做检索，而是能做通篇阅读理解，这是我们两年前发布的一个节目中用的系统，背后用了真实的技术。

今天的技术有很多的拓展，机器对于这样一个问题的理解，甚至帮你构造问题，帮你掌握怎么提问，也做了非常多的努力，因此在这里面从翻译走向问答，也会在明年有一个新的突破。另外对话技术在输入法中间会做更多的呈现。

在未来几年的时间里面，也许用不到 10 年，我们构建了一个基本的路径，自然交互会从文字走向语音、图像理解，所以看到我们的录音笔、同传、合成主播这个技术的前面，是在语音图像的交互能力里面做增强，但是背后还是语言。

另外一条道路就是认知能力不断地提升，会使得从搜索走向、辅助医疗、辅助问答以及合并语音图像技术，最终走向行业终极的理想，就是每个人都拥有一个个人助理，在一些垂直领域当中，能够帮你去做秘书的工作，或者是成为你的分身，跟世界进行沟通，这个是我们规划的蓝图。

到明年的时候，我们会完善这张图，给大家呈现一个离个人助理更近的 AI 时代的产品，用机器帮助每一个人，让表达、获取信息更加的简单，这个是我们的一些思考，谢谢！