雷锋网AI科技评论按:在今年8月份,北京智源人工智能研究院确立了第三个研究方向“智能信息检索与挖掘”,其中中国人民大学高瓴人工智能学院院长文继荣教授担任该重大方向的首席科学家,并由人民大学窦志成教授担任该方向的项目经理,清华大学王建勇、唐杰、刘奕群、贾珈,北京大学崔斌、邹磊,中科院郭嘉丰、刘康、沈华伟,人民大学徐君等担任该方向的智源学者。
在当时的发布会上,文继荣教授表示“这在全国应该是最强的团队,甚至可以说在世界范围内也是一支有影响力的团队”;他旗帜鲜明地提出“我们最终的目标是做源头的创新、基础理论的创新、应用系统的创新,我们希望我们在智能信息检索与挖掘这个领域成为一个标志性的队伍,最终形成该领域的‘北京学派’”。
在当时的发布会中,文继荣教授提到,搜索技术曾在二十世纪初诞生了一大批伟大的公司,例如谷歌、百度等,但我们所使用的搜索引擎的架构和交互界面已经30年没有变化,它的核心技术已经10年没有重大改变。有人认为搜索的战争在10年前已经结束,但文继荣教授认为“搜索是一场没有结束的战争”,谷歌当年给自己提出了使命——把世界上所有的信息组织起来,使得信息更易于被人们存取、更加有用——不管是从信息的深度、广度以及使用的方便性和有用性上,都还是远未达成。
深问我们的内心,事实上我们真正所需求的不仅仅是一个搜索框和一系列的网页链接,而是一个能够帮助我们处理各种信息和事物、给我们健康和心灵陪伴的个人智能助手;科幻电影往往能够告诉我们内心的渴望,例如《钢铁侠》中的贾维斯、《超能陆战队》中的大白、《流浪地球》中的MOSS等。
在当时,文继荣表示智源“智能信息检索与挖掘”重大方向的研究目标将是“个人智能信息助手”。围绕构建个人智能信息助手的关键科学和技术问题,从理论、算法、系统三个方面联合北京地区高校和科研机构的优秀学者进行联合攻关,其中:
唐杰、徐君、沈华伟将带头去探索智能信息检索与挖掘领域的数学和认知的理论基础。
刘奕群、贾珈负责基于自然语言的交互式信息获取。
王建勇、刘康、邹磊主要做知识增强的信息表示与挖掘。
崔斌、郭嘉丰、徐君将探索深度语义检索与推荐模型。
在10月31日-11月1日举办的“智源大会”上,文继荣教授向记者表示,智源学者分布在多个科研机构和大学,每个人都有自己的团队和自己要研究的事情,本身形式相对比较分散,但整个团队却凭借核心的研究目标而相互联系,做到“形散而神不散”。他们给自己定的长期是研究“个人智能信息助手”,而为了能够将长期目标转化为阶段性成果,他们提出了近期(两三年)的近期目标:构建服务于北京市民的政务智能信息助手。
参与媒体包括:雷锋网(公众号:雷锋网)、智东西、InfoQ、大数据文摘
我们来看文继荣教授的具体谈话——
文继荣:“智能信息检索与挖掘”这个方向是智源人工智能研究院确立的第三个研究方向,主要是聚焦于如何把最新的人工智能技术应用到信息检索和数据挖掘这一领域。我们汇集了北京市十几位最优秀的学者,组成这样一个团队。
我们经过前期很多的沟通和交流,确定了整个方向的中长期的研究目标,是去构建面向未来的下一代个人智能信息助手。大家知道智源的方式是很创新的一种科研组织方式,智源学者分布在多个科研机构和大学里,每个人有自己要研究的事情,自己也有团队,也有很多事情,本身形式上是相对比较分散的。虽然形式上比较分散,我们希望大家聚集在一起来做一个重要的东西。我经常举的例子叫“形散而神不散”,就跟写散文一样,你本身形散,如果连神也散了就麻烦了,所以我们希望“神不散”,我们共同来去构建这样的一个智能信息助手,每个人的研究都要跟它进行对齐,最后确定自己要做什么。
当时定下这个中长期研究目标后,很多事情就开展的比较顺利了。我们十几位智源学者做了分工,我们在大方向下分了四块研究内容。第一个部分是智能信息检索的数学和认知理论基础。再往上是具体的技术和算法方面,我们又分了三个方向来做,包括基于自然语言的交互式信息获取、知识增强的信息表示与挖掘、深度语义检索与推荐模型。大家各司其职,现在已经开始了自己相关的研究工作。比较幸运的是,每个方向都有两到三位智源学者负责。
另外,虽然说智源本身相对比较松散,我们也希望整个研究工作有一定的组织,所以我们定期会有一些例会和学术论坛,目前已经有过几次了,也有挺好的效果。
还有一点想说的是,近期我们又进一步把自己的研究目标做了细化,之前我们确定做个人信息助手。可以想见,这个事情需要时间,里面有特别多的问题,甚至有些问题我们还不知道怎么去做,或者只是刚刚开始探索。这是一个长远目标,我们还需要一个近期的目标,一个做一两年、两三年就能看得见摸得着的东西。我们经过讨论,确定的这个近期目标就是:做一个面向北京市民办事情的、政务信息获取的智能助手。
现在我们市民去办事情,他需要去网上找,北京市有许多单位的,各个局、各个委、各个机构,他们信息网站上的信息也非常多,各种各样的公告,各种各样的办事流程,这些信息分布在各个地方,大家找起来特别麻烦。让老百姓自己去读那些文件,去搞明白到底该怎么弄,这是一个很繁琐的过程。
我们希望有这样一个智能信息助手,就是专门帮老百姓办事情。你想去迁户口、办港澳通行证,或者房子过户等等老百姓日常生活的事情,我们有一个小助手,每个市民只需要打开APP,它就可以告诉你这个事情该怎么办。这样的助手,我们觉得我们可以在短期内做出一个不错的东西;有了这个东西,我们再继续把其他内容集成进去,做得越来越好。
这个近期目标,是我们第一次对外说。这对我们来说是一个重要的决定。
问:这个政务信息智能助手在研发或者落地的过程中有没有过难点和问题?
文继荣:肯定会有很多困难,做一个非常智能的助手,其实现在还有好多技术上的挑战。我们之所以做这个事情,就是希望有一个小目标,两、三年,到了冬奥会的时候,每个人手机上都可以装一个。我们原来说的个人智能信息助手是通用的,通用的和特定领域比起来要难得多的多,那是我们的长目标。我们就集中在政务信息这块。这些数据在政府的网站上都有,是可以拿得到的。我们又是北京的智源人工智能研究院,所以就该帮北京政府做这个事情。
这个政务智能助手提供的功能也是比较清楚的,就是老百姓要办理的事情,他不会问一些特别没边的事情,这样看起来我们从技术上来说难度会小很多。至于说中间会遇见什么问题,肯定会遇见。但是我们评估了一下,以我们团队的技术实力和之前的技术积累,我们在较短的时间内拿出一个还不错的原型系统还是非常有希望的。
问:政务信息这块现在会不会存在信息孤岛的问题?针对这个问题有什么解决方案?
文继荣:会,我们会逐步解决。我们目前第一阶段主要还是根据现在各个政府网站上公开的信息。它出个文件告诉你某件事情怎么办理,这些事情都有文件,我们希望这些能够变成智能助手脑子里的知识。我们将来是希望至少北京市方方面面的事情,这个智能助手都有相应的知识,都能够回答,都能够帮你解决。这里面会有一些信息孤岛、信息打通的问题。如果遇到的话,我们希望能够通过智源跟北京市政府沟通,希望把这些数据的问题进一步解决。
问:现在关于AI的研究也很多,智能信息助手出来之后也会面临到AI落地困难,无法形成一种消费型产品。现在这个阶段你们有没有考虑过这方面的事情?
文继荣:做智能信息助手或者个人信息助手,我们希望做一个非常智能的像人一样的助手,你问它啥,它都知道,这是我们的一个研究课题,我们把它定位为我们长期的研究问题。
我们当时定这个题目的时候,是问过自己,既然北京市现在做了智源人工智能研究院,给每个参与人员很大的支持,实际上我们应该有决心去做一些相对比较长期的事情。如果给你五年的时间,衣食无忧,也没有其他的一些压力,你会做什么?你不用考虑升教授、升职,你愿意认认真真静下心做什么?我们就是要做最难的问题。我们认为智能信息助手是非常重要而且非常困难的问题。我们定下这个题目不是说要去短期内落地的,这是一个长期的研究问题。
回过头来,为什么我们要做政务智能信息助手呢?我们觉得如果说一个东西要五年、十年看得见,这个队伍又是很松散的,我们可能会迷失目标,大家做着做着就不知道做哪去了。在往长远目标进发的路上,要有一些看得见、摸得着的一些中间成果。这也是为什么我们要做政务智能信息助手的原因。政务智能信息助手从难度上来说,比我们长远的研究目标要小很多,我们是有信心经过两三年的努力做出真正可落地的东西。要做真正通用的助手,我们觉得是一个长期的过程。
问:智能信息助手的本质就是信息获取,传统上信息获取主要是以搜索引擎的对话形式来呈现。除了这两方面还有没有其他构想?
文继荣:信息检索就三件事情,一个是用户需求的理解,第二个是对文本的理解或者对数据的理解,第三个就是把这两者做连接,这就是信息检索。只是原来做的很糙,就是拿关键词匹配文档。我们现在其实也脱不开,我们希望将来不是要用关键字表达,你可能就在一个移动的环境下,开着一辆车或者走在路上去说。我们前两天举了一个例子,你路过央视大裤衩,你可能会问“那个奇怪建筑是什么”。对人提问没有任何问题,但你要计算机理解“那个建筑”指的是什么,这个事情不是这么容易的,我们希望以后它能够非常自然地理解你真正的需求。自然语言很难,因为我们会省略很多东西,计算机只有把这些省略的东西补回来才能准确地理解你想要什么。这些肯定不是单纯通过推荐网页就能够实现的,我们希望能够将各种各样的信息都集成在你的系统里,形成知识,对各种信息进行无缝覆盖。
个性化这个事情怎么去做?这个助手会随着你的使用变得比你还懂你自己。这件事情是可以做到的,我们人有时候不是那么懂自己,怎么在你的助手里面逐渐形成你的性格、人格、爱好,这里有大量的东西要去研究,很多东西我们是缺乏理论和算法基础的。
我经常开玩笑,以后我们这些人去世了,我们把我们个人信息助手上传到空间,就永生了,它知道你。这件事情不是开玩笑,完全可以去做的。整个过程有很多东西要做,每个问题都是我们在人工智能这条路上非常关键也是非常艰难的问题。我们希望我们这个团队花五年、十年,能够帮人类往前推进一大步。
雷锋网报道。
附:智源“智能信息检索与挖掘”研究方向智源学者
相关文章:
打造世界AI研究的中心?黄铁军:北京有资源,北京有责任,北京有希望
智源研究院再次发力,孙茂松领衔打造北京学派 NLP 最强军团
智源研究院重磅发布智源学者计划,携手旷视成立联合实验室
北京智源人工智能研究院成立,北京大学计算机系主任黄铁军担任首任院长