文/周晓奇
编辑/单一
“19.36吨干鱿鱼在京东拍卖上拍,最终以178.12万成交。人生两大悲哀:活得不如咸鱼,身价不如鱿鱼。”
在今年京东双十一全球好物节期间,六款形象可爱的卡通虚拟主播,用诙谐的语言精确地播报着各个销售数据,并且还能够与其进行实时互动,获知想要了解的数据。
京东早已不是首次使用虚拟主播,此前还与该技术背后提供方杭州相芯科技有限公司(以下简称相芯科技),合作展现了真人形象虚拟主播京小帅和京小蕾。
据京东人工智能高级产品经理许俊恺表示,相芯科技一直是京东的AI解决方案的合作伙伴,此次基于京东销售数据的内容升级,用卡通虚拟主播播报京东销售数据很好地体现了京东的科技创新范儿。
全球VR/AR市场规模,图片来源于东吴证券报告
5G潮的来临,VR/AR或许将迎来快速发展,根据中国信通院数据,2018年全球虚拟现实市场规模将超过700亿元人民币,同比增长126%。
各方利好下,相关技术也在逐步渗透到消费端。传统图形学的手段主要是利用数学工具对现实世界进行建模,是Physical Based Approach。主要解决了专业用户如何生成图形给人看的问题,也就是PGC内容。
而近年来图形学的发展越来越多地往普通用户如何可以方便地生成图形内容发展,计算机图形学结合了计算机视觉、机器学习、人机交互等领域的知识,来实现自动化的内容生成和更自然的交互,形成了智能图形学的概念。
新一代的图形学越来越多的利用数据,更多地倾向于Data Driven Approach,促生了自动化的内容生成和自然的交互手段,由于对UGC内容生产的促进,其应用场景也扩展到短视频、直播、及更多的应用场景中。
2016年成立的相芯科技,正是在智能图形技术领域的创新者,公司专注AI+计算机图形学方向,目前产品主要有视频AR特效、虚拟形象自动生成、AI虚拟主播、AI虚拟助手等。
相芯科技部分3D卡通虚拟主播
如今,成立近四年的相芯科技,已服务近500家B端客户,其中包括百度、微软小冰、传音、浙江电视台等,相关技术也广泛应用在智能手机、直播、短视频、在线教育、新零售等众多行业。
由于拥有强劲的技术实力与广阔的市场前景,相芯科技在成立一年后就实现盈利,目前已连续三年盈利。但走到这一步,并不是一件容易的事。
突破瓶颈,走向消费级打开摄像头,选择河豚形象,一个活灵活现的animoji(3D动画表情)出现在了屏幕端,伴随着真人张嘴的动作,屏幕中的animoji吐出了一连串的气泡,好像身处水中一般。
在陌生人社交APP Soul的功能中,Avatar(虚拟3D形象)实时表情捕捉成为年轻群体中颇受欢迎的功能。虚拟形象不仅能够还原真人表情,增加社交趣味性,也能够在与陌生人交流中保护自身安全。
相芯科技的虚拟形象驱动
看似简单的应用,真正实现起来却并不容易。Avatar其实并不新鲜,已经在影视、动漫、游戏等领域得到了应用,但这项技术此前从未真正走进消费级领域。究其原因,在于Avatar的普及存在技术瓶颈与成本方面的难题。
据相芯科技向锌财经介绍,Avatar技术在消费级设备上实现的难度主要体现在Avatar生成、Avatar驱动互动。
此前在Avatar生成上,构建一个可实现表情等全部动态效果的真人3D模型,不仅耗时久,而且价格高昂,这直接导致Avatar难以实现在消费级领域进行大规模应用。
为此,相芯科技打造出了全球首创的虚拟形象自动生成技术 (Photo to Avatar,简称PTA),原本成本高、耗时长的Avatar生成,通过此技术只需要给到一张照片,即可以秒级的速度全自动生成一个全动态Avatar,用户只需要一台智能手机就能实现,极大地降低了Avatar生成的硬件成本。
与此同时,在Avatar驱动方面,相芯科技突破性地使用了智能手机上的普通摄像头,无需使用深度摄像头,即可进行精准的面部表情捕捉,让Avatar的表情始终随着用户表情进行即时变化。这大幅度降低了用户的创作难度,用户体验也更真实。
当下,相芯科技的核心技术人员来自浙江大学、微软亚洲研究院、苹果等公司,在计算机图形、计算机视觉、VR/AR等技术领域拥有20多年的研发经验。
经过不断努力,目前相芯科技已经完全Avatar生成、互动和渲染技术的全面布局,可支持包含面部、舌头、眼球在内的56个表情系数的融合。
在细节上,相芯科技也没有含糊,添加了带物理动效的animoji,用户在实时驱动时,可发现在耳朵、毛发等地方,会遵循物理力学自然摆动,效果更为真实生动。
与市面上类似产品相比,相芯科技的animoji表情灵活丰富,维度比类似产品更多。
一直以来,让创作更简单,交互更自然,体验更真实,也成为相芯科技不断努力的目标。
从交互到“交流”“浙江省在全国的排名情况?”在今年京东双十一全球好物节上,工作人员直接向京东3D虚拟主播京小帅询问道。
随即,京小帅脖颈微倾,眼神闪烁,带着职业主持人的微笑播报道:2019年京东全球好物节,浙江省消费增长强劲。从下单量看,该省排名前五的城市是:杭州市、温州市、台州市……
整个播报过程语速流畅,没有一丝卡顿,与真人主播看不出任何差别,京东人工智能和相芯科技联合打造的AI虚拟主播,成为AI落地从交互到交流成为重要展现方式。
相芯科技与京东人工智能打造的AI虚拟主播京小帅
在移动互联网时代,智能手机通过其更加自然的交互和灵活的应用方式,不仅承载了部分基于PC的传统互联网应用,同时衍生出了更为丰富的移动互联网生态。而随着5G、云计算等技术的发展,势必会提升用户体验,实现人与机器的无缝交流。
巨头们也在纷纷通过布局智能音箱行业,切入未来的万物互联生态中,然而此前大多数产品仍然停留在语音交互阶段,用户可能需要进行多轮对话才能获知想要的信息,这无疑降低了获取信息的效率。
有屏化正在成为智能音箱升级迭代的重要标志。据市场研究机构Canalys披露的统计数据显示,有屏智能音箱在2019年第三季度的同比增长高达500%,占到智能音箱总销量的22%。
智能音箱有屏化的迭代,让拥有个性化形象,并且能够和用户面对面互动的可视化AI虚拟智能助手,成为其标配。
相芯科技的AI虚拟助手解决方案,也早已进行全方位的布局,自主研发的语音动画合成技术(STA),将人工智能与计算机图形学相结合。
当计算机获取语音或者文本中的内容信息后,STA即可通过计算机图形学合成技术对虚拟形象的面部进行驱动并融合,实现极具逼真感的表情还原。
相芯科技自主研发的STA技术
与此同时,相芯科技的STA技术还可与市面上主流的语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)兼容结合,既可为拥有语音技术的客户带来可视化的虚拟形象升级,还可为没有语音技术的客户带来完备的AI虚拟助手解决方案。
目前根据不同需求,相芯科技还可定制专属形象,包括3D卡通、3D动物、3D数字人、2.5D仿真人、深度学习仿真人等类型,并可适用于医疗、金融、教育、零售等各种应用场景。
从单纯的人机交互,到实现可交流的人机互动,技术的突破正在带来不同的体验,而掌握这些技术的玩家,才能真正在今后立足生根,成长为新一代的巨头。
多维度的应用场景“浙江启动防台风Ⅱ级应急响应、杭州萧山国际机场目前有20个航班取消、台风利奇马距离温岭市东南方向225公里……”AI主播“小范儿”时刻播报着超强台风利奇马的最新消息。
今年8月,利奇马登陆江浙沿海地区,为应对这一超强台风,钱江台&钱江视频紧急启用了AI主播“小范儿”,24小时不间断地为民众播报利奇马的最新动态。
相芯科技与钱江频道联合打造的AI虚拟主播小范儿
AI虚拟主播并不新奇,但此次由钱江频道与相芯科技联合打造的AI主播,在突发性事件中出色完成播报任务,标志着AI虚拟主播在实际落地中的新突破。
相芯科技的落地场景远不止传媒领域,在游戏、社交、电商、教育等领域,都可完美匹配。
在视频AR特效的应用中,美妆功能颇受女性欢迎,相芯科技基于209个人脸关键点,支持粉底、腮红、口红、眼线等10个美妆维度,在不需要重新制作美妆素材的情况下,即可帮客户轻松打造个性化妆容。
而在单个美妆维度上,比如口红色号较多,女性需要挑选适合自己的色号,这时只要提前预置多种色号的口红道具,在客户端加载切换,即可实现口红实时试色的功能,既能提升客户挑选效率,还能实时看到上妆效果。
与此同时,在线上社交领域,相芯科技也能给出完美的解决方案,运用虚拟形象自动生成技术,用户可定制属于自己的卡通形象,与对方实时交流,既不用担心泄露隐私,双方也能形成良好的互动。
用户在使用过程中,只需要上传一张自拍照片,通过相芯科技的虚拟形象自动生成技术(PTA),即可生成个性化3D卡通形象,并且高度匹配个人特征,这增强了用户在交互上的自然度。
细节上,相芯科技会提取用户面部特征,如脸型、五官、发型、皮肤、胡子等,通过将信息风格化,生成具有本人特征的形象,实现千人千面的效果。
在这背后的技术应用上,相芯科技使用端对端神经网络生成个性化形象,其中神经网络分为肖像网络与风格化网络两部分。肖像网络负责全面分析用户上传照片,提取人脸特征,完成3D人脸的重建,风格化网络则将重建的人脸模型卡通化。
相芯科技的虚拟形象自动生成技术(PTA),实现千人千面
与此同时,相芯科技开发了一系列的虚拟形象互动的应用场景,并提供客户端的SDK用于进一步地虚拟形象个性化定制和互动,这也让其可以轻松接入到各种VR/AR的应用中。
值得注意的是,2018年,相芯科技还与浙江大学,合作成立了“浙江大学-相芯科技智能图形计算联合实验室”,这为其加强了在技术方面的探索与突破,智能图形技术的创新发展,也将得到进一步的深入研究。
当下,相芯科技积累起的技术护城河,打开了消费级应用的市场,搭建起了全方位、多维度的服务体系,而今后万物互联时代来临,将给相芯科技带来更大的增长空间,以及更有利的开拓条件。