今年,医学影像分析顶会MICCAI 2019在深圳举行。在这次会上,英伟达医疗副总裁Kimberly Powell也来到了中国,并且带来了一个20多人的随行团。
作为全球最大的独立 GPU 供应商,英伟达给外界释放的信号不言而喻。Kimberly说到,之所以来参加MICCAI,是要见一些潜在的合作伙伴。同时,英伟达也将会在NVIDIA内部打造中国本土的医疗团队。
2008年,Kimberly加入英伟达,负责将英伟达GPU开发为可应用于医疗成像仪器的加速器平台。此前,她曾表示,医疗领域是英伟达规模最大、也是最为成熟的一个领域。“在放射学中,我们可以利用人工智能大幅的降低成本,提升图像的质量,并且将医疗和人工智能整合到一起。”
作为入局医疗的重要一步,2018年,英伟达发布了Clara平台。时隔一年,Clara的进展如何?Clara能否支撑起英伟达的医疗梦想?
医疗:算力需求最大的产业
实验室表现出色的AI迟迟难以在医院落地应用,很重要的一个原因就是“临床环境非常复杂”。
就以设备来说,很多医院还在用十几年前生产的成像设备,因为设备升级耗资巨大,医院的“改造动力”并不充足。这也是英伟达入局医疗的动力之一。
Kimberly说,在消费级AI当中,英伟达更关注的是数据训练、模型训练。医学影像的数据规模非常庞大,一些主流的消费级AI工具无法处理。如果没有更为先进的工具,AI就很难进入到下一个层级的应用。
现在,英伟达更关注的是规模可扩展的推理,以更快、更大规模的方式来进行推理。在Clara平台上,医生可以继续使用原来的超声、CT等成像设备,输入图像后,系统可以自动推理出更加清晰的图像。
Kimberly向雷锋网(公众号:雷锋网)表示,医疗将会是世界上对于计算能力需求最大的产业。“模型和数据集的规模较大,而且很多都是3D数据。想象一下,我们有十几种医疗器械,身体结构、器官、疾病都有十几种分类。因此,针对各个细分领域的AI算法种类是指数级增长的。”
除此之外,考虑到医学数据的敏感性,医院对于数据本地化的要求比较苛刻,对于底层CPU、GPU性能的要求不断上升。
这些是英伟达决定开发Clara平台来满足医疗需求的原因。
一年来,Clara的四大进展
作为一个软硬件相结合的平台,Clara的核心是英伟达 Clara AGX,是一套以英伟达 Xavier 人工智能运算模块和英伟达 Turing 架构 GPU 为基础的运算架构。
2018年,Clara软件开发工具包(SDK)在北美放射学会会议上发布,定位于针对医疗行业分层的软件堆栈。
发布将近一年后,Kimberly也向雷锋网分享了Clara平台的成绩。
其中一个比较大的进展,是工具集的高度模块化。在Clara第一个版本当中,整个工作流是提前设定好的。也就是说,用现有的模型去训练现有的预定好的模型。
而在最新的版本当中,用户可以将自己的模型带到平台上来进行训练,“所以在使用层面,Clara变得更加友好了。”
其次,英伟达还整合了一些开源的工具。比如,新的医疗影像浏览器能从三个视角观察图像,相当于是一个AI助理分析工具,从用户的角度而言,使用更方便。
再然后是优化了性能,尤其是改善了数据加载训练的时间。Kimberly笑道,“有开发者反映,有时候数据加载的时间,比训练的时间还要长。”
最后,新的SDK还实现了自动化的多GPU训练,不再需要用户过多干涉。
据雷锋网了解,Clara主要针对三种类型医疗客户,第一是医疗设备公司,第二是人工智能软件开发公司,第三是那些拥有几百个应用的医院。
Kimberly认为,对于这些医疗领域的用户,英伟达可提供四个方面的能力。
第一、训练好的模型,可以用来训练数据,利用这些模型来作为医生的助理;第二,让模型表现非常有效的一个办法是对数据进行标记,在Clara平台上,研究人员可以来做预标记的事情;第三,有一个预训练模型让开发者有一个比较高的起点,对这个模型再进行训练时,可以用更少的数据量就达到非常高的准确度;第四,就是应用的部署。
很多AI初创企业手里有一些AI模型,但是他们需要将这些AI模型进行大规模的运转,比如:每天至少做上百个推理。
所以,Clara平台实际上就提供了可扩展的AI推理功能,那些初创企业和医疗公司就可以用Clara平台快速和低成本的扩展。
据了解,英伟达在医疗领域已经收获国内包括平安保险、华大基因、碳云智能、联影智能、推想科技等在内的众多合作伙伴。例如,推想科技使用的就是Clara里的推理引擎,并行执行多个人工智能算法。如果没有这个推理引擎,一个AI的模型就必须有一个专门的GPU执行。
此外,联影智能也在NVIDIA DGX系统的基础上构建AI架构,以便开发用于全栈式医学影像的人工智能软件uAI。
Kimberly说,AI初创企业现在基本上都是基于英伟达的技术来打造自己的应用,英伟达做的事情就是给他们的应用去加速,去做更底层的事情。
雷锋网了解到,从发布以来,Clara平台的开发者数量增长非常迅速。Kimberly说,英伟达在今年春天正式发布了这个应用框架,几个月的时间,Clara开发者的数量增加了4倍。
将联邦学习引入Clara
深度学习仍然是这波人工智能热潮中占“统治性”地位的技术。据雷锋网了解,这一次的MICCAI会议上,仍然有超过70%的研究人员做的都是深度学习领域的研究。
但是,值得注意的一个现象是,联邦学习悄悄成为了今年MICCAI上的一个热词。
大会主席沈定刚教授向雷锋网表示,联邦学习对于医疗数据的隐私性来说是一个很好的方法,既可以保证数据“不出院”,又能够利用不同医院的数据训练同一个算法。
英伟达资深研究科学家Nicola Rieke说,联邦学习的提出,主要是为了解决“数据收集”的问题。
“如果一项研究需要跨国或者跨区域,就不可能建一个共有的数据池。在联邦学习里,其实是模型找数据,而不是数据找模型,医学数据一直没有离开医院。这个新技术的最大突破点在于,模型训练完、数据回传时,要保证最少的涉及到隐私的数据被回传过来。所以我们只是回传训练后模型的数据,而不是原有的数据。”
其次,如果采取集中化的数据处理方式,会大大增加数据的规模。“比如,CT的图象原来有1TB。我把这个数据集中之后,就相当于把1TB做一个拷贝,创造了2TB的数据。”
当然,Nicola Rieke也提到“数据安全”的问题:如果根据模型训练出来的数据,又知道底层的运行逻辑,确实是可以进行模型反推。
因此,英伟达和伦敦国王学院的研究人员在这个模型上引入了稀疏向量技术(SVT,Sparse Vector Technique)。训练完数据之后,在数据中加入“噪点”,让数据变得模糊、改变原有数据的颗粒度,让反推变得更加困难。
当然,任何一个方法都不是完美的。此前,很多的数据训练放在云端,用大量的GPU去做。但是,由于联邦学习需要把集中于中心服务器的模型训练过程分散到了各地。这对于合作对象的硬件条件提出了要求,会增加各地的GPU数量。
Nicola Rieke表示,确实存在这种情况,但是现在英伟达的GPU硬件,基本上对于每一个服务器的供应商来说都是可以使用的,最入门的、最低的投入可能只需要1万美金,一定程度上降低了使用的门槛。
借助于联邦学习,今年8月,英伟达与总部位于英国的药物研发联盟MELLODDY组织联手,围绕药物研究展开合作。
MELLODDY包括了10家领先的制药公司,如安进、拜耳、葛兰素史克、杨森和诺华;两所欧洲顶尖大学——鲁汶大学和布达佩斯科技经济大学以及四家初创企业。MELLODDY的研究人员创建了一个分布式深度学习模型,用于在不同的云集群中的传输以及对未知的1000万化合物注释数据的训练工作。
为AI生态打造“一个工具”
在英伟达内部,Clara的定位就是“一个工具”。
NVIDIA中国高性能计算、产业AI业务总经理刘通说到,对于任何使用Clara的用户用,原则上是没有任何限制的。相反,无论是初创企业还是大的医疗公司做AI,工具恰恰都能提供非常好的帮助。
Kimberly表示,Clara支持任何阶段的初创企业。如果是非常早期的初创企业,可能需要的更多是技术上的帮助。如果是成熟一点的初创企业,可能它们需要的是市场方面的帮助。
市场化的能力体现在几个方面。一方面,在英伟达的渠道上进行宣传;另一方面,在GTC大会上,英伟达也会邀请这些公司参与大会、发表演讲。“因为有很多风投参会,通过这种良性的循环,我们能帮助这些企业拿到一些好的风投基金。”
除此之外,英伟达也与学术机构合作。4月,英伟达与美国放射学会联手,将Clara AI平台整合到旗下的ACR AI-LAB中,让超过38000名的放射科医生创建满足自己需求的AI工具。
而在半个月前,英伟达与加州大学旧金山分校合作,用DGX超级计算机打造自己的AI训练架构,并且用Clara开发和部署了应用。
Kimberly补充说,英伟达更多的是扮演一个“赋能者”的角色,为整个AI生态系统打造了一个完善的开发工具,帮助创业公司更好地执行医疗AI的应用。