AI多模态交互开发者大会：“阿里巴巴语音助手比

2020年AI多模态交互技术将会迎来较大爆发。12月19日，在炬芯科技第四届Techlife炬芯2019多模态交互技术开发者大会上，来自喜马拉雅、达摩院、玩瞳科技、IP方CEVA的行业大咖们，从内容赋能、语音赋能到视觉算法赋能、IP加速等多角度，共同探讨多模态交互在教育上的落地情况。

多模态交互技术赋能新智能硬件

喜马拉雅今年的用户突破6亿，拥有7000万以上的主播，其中100万以上是认证主播，在整个音频行业的覆盖率73%，每个用户平均每天的播放时长超过170分钟，喜马拉雅硬件生态事业部总经理余涛表示，“我们的目标是，提供高度粘性，给用户提供有价值的产品。”

喜马拉雅硬件生态事业部总经理余涛

硬件生态事业部主要做内容赋能，喜马拉雅希望通过内容赋能，让大家能够把产品的体验做得更好。在余涛看来，人们拥有很多碎片化的时间，从古代到现代，人本质上的需求是不会变的，而变的是我们以怎样的方式去实现人们的需求。就像喜马拉雅现在做的音频的产业一直是存在的，而必须求变的是，需要通过怎样的交互，生意模式，去给大家带来更多的思考。

为此，喜马拉雅接下来将会基于场景化，给大家带来不同场景化的东西。怎么做呢？即基于场景，让人们在不同的碎片时间，可以有不同碎片时间的音频的享受。所以我们在各种场景下，对内容做了筛选，比如从现在的故事维度到教课维度，把所有的内容分为10个大类，包括博学、英语到科普，从不同维度输出内容。

实际上，所有的硬件厂商，未来也是一样。如何让用户把爱不释手的硬件拿到手，那就是要能为这些用户提供更多的价值。

喜马拉雅正在打造深圳硬件生态，已经为很多头部厂商输出内容，比如为阿里、天猫、小米里面的喜马专区，小米、小天才、华为的手表，三星、联想的手机的内容。此外，喜马拉雅硬件事业创业部2020年提出了一个双百计划，即三年内，有一百个年收入分成超过一百万的企业，这是接下来的目标。

相信，喜马拉雅的内容在更多的智能产品中出现，丰富的内容体系将在多模态交互技术赋能的新智能硬件中焕发更蓬勃的生命力。

“阿里巴巴在语音助手方面，比谷歌更好。”

“谈到达摩院语音实验室的时候，经常有朋友很惊讶的问到，阿里巴巴还做语音吗，那做得怎么样呢？”阿里巴巴达摩院语音实验室资深算法专家高杰在会上说到。事实上，阿里巴巴达摩院的语音技术的表现已经相当优秀，今年MIT Technology Review中讲到2019年十大技术突破，有一点提到语音助手技术，是这么说的，“阿里巴巴在语音助手方面，比谷歌更好。”这个评论是针对，阿里菜鸟送货电话机器人去做的。高杰表示，在我们擅长的小小领域，比如电商客服，送货，人工智能对话方面是实实在在做得最好的。

图：阿里巴巴达摩院语音实验室资深算法专家高杰

图：MIT Technology Review 2019提到“阿里巴巴在语音助手方面，比谷歌更好。”

高杰还从三个方面谈到了达摩院的语音能力和优势，他说，“数据积累、算法和计算能力是语音AI三大基石。在数据积累方面，达摩院语音技术连续4年，每年识别阿里巴巴集团内超过1亿通的电话，还提供手机淘宝、支付宝、手机高德等阿里巴巴集团内所有App的语音识别相关功能，具有电视、车载、儿童教育、公共空间等多领域的语音交互数据，具备多语音、重口音、方言能力；在算法方面，具有三国五地精英齐聚的百人精英团队，具备信号处理、语音识别、语音合成、对话处理的能力；在计算能力方面，背靠阿里云，弹性计算百万并发经受双十一考验，语音识别使业内最先进的CTC-LFR建模技术提速3倍以上。”

在会上，高杰重点介绍两款产品，语音原子产品和语音交互产品。语音原子产品，包含语音识别和语音合成，具有自学习、弹性计算、稳定、方便接入的特点。语音交互产品旨在让每台设备都能听会说懂你，该产品从2015年到2018年，已经在手机、汽车、电视、智能家居等场景中应用，包括支付宝、虾米音乐、多模态地铁售票机、手机高德APP、儿童机器人、荣威系列、海尔远场景语音电视等等。

高杰表示，达摩院语音实验室的愿景是为阿里巴巴经济体提供无处不在的语音交互能力。语音技术作为多模态中发展最成熟，也是最重要的一环，我们期待语音技术在多模态交互场景中有着更多的亮眼表现。

视觉将是下一代机器人的基本能力

玩瞳科技VisionTal专注于实体学习桌面的智能视觉分析，旨在打造多模态的智能学习体验。在会上，玩瞳科技CTO潘鑫表示，政策利好产业发展，2018年，中国发布的《教育信息2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语音文字信息化等关键技术研究与应用。教育机器人作为机器人应用于教育领域的代表，将成为智慧学习环境的重要组成部分。

玩瞳科技CTO潘鑫

在谈到下一代机器人的发展方向时，潘鑫认为，视觉将是下一代机器人的基本能力。视觉的能力将使机器人改变以往的被动服务形式，迈向主动服务。从而为使用者提供更好的服务体验。

玩瞳科技在教育视觉领域深耕多年，在视觉识别算法上走在行业前列，在完整的技术体系支持下，推出了多款视觉识别的教育硬件产品，并且和机器人/故事机、教育电子、互联网巨头、垂直教育多领域合作，积累了丰富的实践经验。

让教育硬件从听到到看，多模态的交互趋势，玩瞳已做好准备。

CEVA DSP一站式解决方案助力极速开发产品

CEVA是一家以色列的IP授权公司，在DSP领域处于领先地位，客户遍布全球各地，行业应用覆盖非常广，包括计算机视觉、AI、通讯等领域。CEVAKeyAccountsMananger田元在会上表示，CEVA每年出货量非常可观，有CEVAinside的终端产品出货超过10亿台。

CEVA Key Accounts Mananger 田元

在会上，田元重点谈到音频相关的应用，重点讲到智能音箱和TWS耳机，调研机构数据显示，接下来几年，TWS耳机每年都有500—800 milion的出货量，智能音箱市场表现更为稳定，接下来几年会维持大概200 milion的出货量，在田元看来，未来几年，整个市场需求相当可观。

那么，面对如此大的市场需求，为什么用DSP而不是通用处理器来处理跟语音相关的东西？田元解释道，DSP，即数字信号处理器，语音作为数字信号，天然需要用DSP处理。那么又为什么用CEVA的DSP？田元说，“CEVA可以同时提供低功耗产品和高性能产品，此外，还和软件合作伙伴们一起，打造非常完备的生态系统，可以保证开发者、芯片客户、终端用户，快速开发产品，快速落地。CEVA除了提供DSPIP本身之外，还提供整套一站式解决方案，涵盖DSP IP、跟音频相关的软件等等。”

CEVA还会阵对不同的场景需求，提供不同的解决方案，这样，IC设计公司可以有更多的选择。以炬芯的芯片为例，超低功耗的解决方案对应炬芯ATS283X平台，高性能解决方案对应ATS3609D平台，优质的芯片集成的优质IP，可为终端智能硬件的产生做好充足准备。

AI多模态交互技术智启新教育

人机交互正在从键盘鼠标的交互转变成语音视觉等多模态交互。交互门槛的不断降低，给交互体验带来了明显提升。炬芯科技产品总监肖凯平表示，语音和视觉是AI交互主要的交互手段，语音方面，不同的产品，要求会有不同，但体验一定要“过门槛”，2mic是入门级要求，需要在本地完成AFE+WMC所有的计算；视觉方面，算法的计算量很大，本地化NN的性价比不够，在本地完成一部分计算，大部分工作在“云”完成。

炬芯科技产品总监肖凯平

为实现更优质交互体验，炬芯作为一家芯片设计厂商的也在持续深耕技术，希望用更优质产品给智能机器赋能。炬芯科技推出了ATS3607、ATS3607D、ATS3609、ATS3609D四款多模态智能交互芯片，充足的算力、超低的功耗、强大的可扩展性，将赋予机器更多的可能性。

图：炬芯多模态交互AI芯片平台ATS3609D

据肖凯平介绍，炬芯多模态交互AI芯片平台ATS3609D，具有语音+图像智能、音视频能力、教育内容等，其中语音+图像智能更适用“重”语音，“轻”图像双模交互的场景；音视频能力双向视频通话，应用在线教育产品；教育+AI，可以给传统教育提供不一样的体验。

图：炬芯多MIC语音芯片平台ATS3607D，可应用于车载、家电、办公领域

作者：李弯弯