当前位置: 首页 > 科技新闻 >

中国AI简史:我所知道的裴健和华人数据挖掘大牛

时间:2019-11-12 21:02来源:网络整理 浏览:
裴健在CCF-GAIR 2018上
中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

裴健在CCF-GAIR 2018上

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

2017 年 KDD 大会上,裴健正式就任 SIGKDD 主席,右为前任主席刘兵

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

加拿大工程院院士邓力在CCF-GAIR 2019大会上

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

韩家炜在 CCAI 2018 中国人工智能大会上

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

明略数据首席科学家和副总裁 吴信东

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

伊利诺伊大学厄巴纳-香槟分校(UIUC)

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

杨强当选新任 IJCAI 理事会主席,现场评选结果图

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

2005 年杨强(右二)KDD Cup 夺冠照片,右一为沈抖

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

周志华

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

KDD Cup 1997预测出最可能的善款捐赠人

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

高文在CCF-GAIR 2018上

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

山世光

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

京东集团副总裁郑宇在 IJCAI 2019 大会上

中国AI简史:我所知道的裴健和华人数据挖掘大牛们 中国AI简史:我所知道的裴健和华人数据挖掘大牛们

KDD 2017 China Day 合影

欢迎关注“创事记”微信订阅号:sinachuangshiji

文/林军岑峰

来源:左林右狸(ID:Left-Right-007)

近日加拿大皇家科学院公布了新当选的一批院士名单,其中 CCF-GAIR 2018 的讲者、加拿大 Simon Fraser 大学计算科学学院教授裴健入选,是本次当选的四位计算机学科院士之一。

借此,左林右狸频道八一八新科院士裴健以及在数据挖掘领域的诸多华人之光。这也是《中国人工智能简史》的系列剧透之一,是的,大叔在沸腾新十年的同时也在与岑峰共同创作《中国人工智能简史》,创作完结时间节点大约在冬季,出版时间应该在明年春天。

左林大叔与裴健的结缘始于 2017 年,从 2016 年起,雷锋网积极参与了十余个国际顶级 AI 学术会议的报道,其中包括在加拿大哈利法克斯召开的 SIGKDD 2017。就在 SIGKDD 大会前,裴健履新成为 SIGKDD 的主席,我们对裴健也进行了专访,也就是在这届大会上,雷锋网向裴健介绍了我们与 CCF 联合举办的 CCF-GAIR 大会并邀请他来做演讲,裴健欣然应允。

在 2018 年的 CCF-GAIR 大会上,履新京东副总裁的裴健结合在企业界的实践做了题为《智慧供应链》的演讲,分享了智慧供应链带动制造和流通行业降本增效的心得,是大会最受欢迎的演讲者之一。

裴健当选加拿大皇家科学院院士可谓华人数据挖掘领域的一件大事。数据挖掘的概念最初在 1995 年提出,相对于计算机科学的其它学科,数据挖掘属于近年来才得以迅速发展的一个方向,此前在 2004 年,吴建福教授作为第一位统计学者当选美国国家工程院院士,也是华人统计学者当选主流国家院士第一人。

而此后真正因为数据挖掘成就当选院士的研究者屈指可数,在左林大叔的印象中,在华人中只有清华校友、英国帝国理工学院数据研究所所长郭毅可 2018 年当选英国皇家工程院院士,不过工程院院士更多反映的是在工程项目上的能力,而科学院院士的评选更为注重学术研究能力,以裴健在数据科学的影响力来看可谓实至名归。

多说一句,雷锋网的另一位老朋友也是 CCF-GAIR 2019 的讲者邓力是加拿大工程院的院士(加拿大工程院与皇家科学院的异同大抵与中国工程院和科学院的异同差不离),邓力在深圳期间也给我们讲述了当年他与陆奇、余凯的交往故事,以及微软百度谷歌三家争夺 Hinton 团队的江湖轶事,十分精彩,我们也会在《中国人工智能简史》里一一呈现。

回来八裴健,在左林大叔看来,裴健成为数据挖掘领域当之无愧的领军人物的原因在于他的全面性:学术方面,他发表了 200 余篇论文,被引用 8 万多次,并因在 Frequent Patterns 的相关研究获得了 SIGKDD 2017 的创新奖(Innovation Award),是第三位获得该奖项的华人,在他之前获得过该奖项的两人分别是韩家炜(2004)和俞士纶(Philips S. Yu,2016)。

他还是第三位获得 KDD 卓越服务奖的华人,在2015年他获奖之前,获得该奖项的华人包括清华的吴信东(2005)、Ying Li(2012);他是第二个担任 SIGKDD 主席的华人,此前担任过该职位的华人是伊利诺伊大学的刘兵(记得裴健在 2017 年的专访也提到刘兵对其的耳濡目染);而此次当选加拿大皇家科学院院士,则是华人在数据挖掘领域的又一个里程碑。

裴健分别于 1991 年和 1993 年在上海交通大学计算机科学与工程系获得学士与硕士学位。前两年曾为中央领导讲解大数据概念的梅宏院士,博士也是在上海交大,和裴健系出同门,两人在交大时就相熟,有着二十多年的交情。梅宏博士毕业后到北京大学做杨芙清的博士后,裴健也到北京大学继续攻读数据库方面的博士。

1998 年,由 IBM 资助,复旦大学召开过一次数据挖掘的讨论班,这也是中国最早的数据挖掘交流活动,当时请来的主讲老师是陆宏钧和韩家炜,这一讨论班为参会的师生推开了数据挖掘的大门,从这一点讲,韩家炜无愧于中国数据挖掘的引路人。当时裴健还在北大读博士,在讨论班中他提出的问题颇有深度,给韩家炜留下了深刻的印象。一年后裴健来到加拿大,到韩家炜麾下攻读 PhD。

2000 年,裴健与韩家炜发表了《Mining frequent patterns without candidate generation》一文,这篇文章被引用 8000 多次,也正是这一研究使得裴健成为国际数据挖掘界的学术之星;当然,让裴健影响力达到顶峰的是他在 2011 年与韩家炜编写的经典教材《Data Mining: Concepts and Techniques》,这也是全世界学习数据挖掘的学生的首选教材。

韩家炜在数据挖掘、数据库和信息网络领域发表论文数百篇,在 Google Scholar 上的被引用量接近 17 万次,h-index 高达 169,被誉为“数据挖掘第一人”。韩家炜父亲上海交大毕业,是郑州纺织机械厂任财务科长兼总会计师。韩家炜是家里四个孩子中的老二,不仅提早读书,后来还跳了一级,1966 年文化大革命开始的时候,韩家炜刚刚从郑州七中读完高中,文革期间就地就读郑州大学并以工农兵学员毕业,如果不是文革,韩家炜像他哥哥和父亲一样考个交大应该是没有问题的。

1978 年恢复高考后,韩家炜便报考了中科院的研究生,因为当时中科院挂着中国科技大学研究生院的牌子,因而也有不少人错认为韩家炜是中科大的毕业生。实际上韩家炜在中科院的研究生只读了一年,第二年他就考取美国公费留学的名额。在威斯康星麦迪逊大学读博士期间,他最初先是做计算机数据库的专家系统,后来专家系统遭遇困境,考虑到研究方向的发展前景问题,随后又选择了关联数据库作研究方向。

韩家炜的这一选择也恰好赶上了知识发现的风口。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,而人工智能在专家系统上遇到困境,也急需一个新的场景落地。于是数据库与人工智能两者的结合促生了一门新的学科,即数据库中的知识发现(Knowledge Discovery in Databases,KDD)。

1989 年 8 月召开的第 11 届国际人工智能联合会议的专题讨论会上,首次提出了知识发现(KDD)这个术语,并在 1995 年召开了第一次 SIGKDD 大会,韩家炜正是 KDD 早期的组织者和参与者。在 SIGKDD 大会上,韩家炜组也是发表论文最多的研究团队之一。

韩家炜是被 KDD 社区认可的第一位华人,他于 2004 年在 SIGKDD 大会上获得创新奖。第二位被授予重要奖项的华人是吴信东,他获得的是 2005 年 SIGKDD 的卓越服务奖。

吴信东的故事颇有戏剧性,他本、硕均毕业于合肥工业大学并留校,1991 年到英国爱丁堡大学攻读博士学位,之后一直从事数据挖掘与知识处理方面的研究。吴信东在还没有到英国读博士之前,就有给知识与数据挖掘领域最好的期刊TKDE(IEEE Transactions on Knowledge and Data Engineering)投稿,但一直屡投不中,屡败屡战,直到博士毕业后的 1998 年才终于投中了第一篇 TKDE。

到了 2005 年,吴信东成为了 TKDE 的主编,实现了“从奴隶到将军”(吴信东自称)的转变。或许是对投论文的艰难历程深有体会,他创办了数据挖掘领域的顶级会议 IEEE ICDM,这一学术会议后来成为不少华人学者的发声平台,在帮助提升华人学者在知识工程和数据挖掘领域的影响力方面起到了积极作用。

2001 年,韩家炜从 Simon Fraser 大学转至 UIUC 任教。UIUC 也是众多留学生偏爱的学校,其特点一是相对于藤校和斯坦福伯克利这一等级的热门学校要相对好申请一些,二是出门的上限高,如果你足够勤奋和努力,这里的名师绝对不会让你失望。华人计算机视觉的灯塔黄煦涛,就是在 1980 年从普渡大学来到 UIUC(在《中国人工智能简史》一书视觉一章里,黄老先生的故事支撑了整个华人计算机视觉研究起承转合的起)。

韩家炜的到来,让 UIUC 也成为了数据研究的重要基地。韩家炜在 UIUC 期间,每年都从国内招收学生,每年报考人数数百名,最终成为他学生的可以用“百里挑一”形容。韩是那种自己学术做得极好,还能把学生培养好的极为少见的老师,除了早期的裴健等学生,后来在UIUC培养的学生还包括严锡峰(UCSB)、蔡登(浙江大学)、朱飞达(新加坡管理大学)、顾全全(UCLA)、孙怡舟(UCLA)、任翔(USC)等学术新星和柳超(天眼查)等创业者。不过传言 2019 秋季将是韩家炜最后一次招博士生,之后再拜入韩门,只能从第二代弟子做起了。

韩家炜后期带的学生时常将裴健这位“大师兄”作为学习的榜样和赶超的目标,当中也发生了一些有趣的故事。例如在 2010 年的 ECML-PKDD 上,韩家炜做了一个题为《结构就是信息:挖掘结构信息网络》的主题演讲,在提问环节,另一位大牛 Christos Faloutsos 举手问道:“你做的这个网络很厉害,但是你能否预测到我明年写什么文章?”韩回答道:“我连自己的都预测不到,更别提你的啦。”回去后韩家炜将这个笑话讲给当时还在他手下读博士的孙怡舟听,孙怡舟很严肃地认为这不是一个简单的笑话。经过分析和讨论后,韩家炜和孙怡舟定了一个新课题,预测 Christos 今后几年会和哪些新的作者合作。

2011年在ASONAM 上,孙怡舟发表了一篇影响力巨大的文章《Co-author Relationship Prediction in Heterogeneous Bibliographic Networks》,在文章中,孙怡舟根据 1996-2002 年的数据,预测大师兄裴健在 2003-2009 年间会有哪些合作者,排名前五的预测中只有一个没有出现。而实际上裴健也和这位作者有合作,只不过他们合作的论文要晚两年,在 2011 年才发表,没有被统计进测试集中而已。数据挖掘大牛的世界还真心遵循数据挖掘的规律啊。

另一位从Simon Fraser大学走出、受韩家炜影响的大牛是杨强,哪个杨强,就是最国际化的华人 AI 大牛,IJCAI 2019 的理事会主席杨强。杨强父亲是北大天文学家杨海寿,因此杨强最初也子承父业,1982 年考取了李政道的中国与美国联合培养物理类研究生计划(CUSPEA)来到美国马里兰大学学习天体物理。

杨强是一个对新鲜事物特别感兴趣的人,早在 1980 年代初还在北京大学写论文的时候,他就被当时的小型机所吸引,通宵达旦地研究计算机,并在计算机上编写了一个游戏程序,后来在美国做太阳耀斑活动(对,就是《流浪地球》里导致地球流浪的原因)研究的时候,还用计算机做了一个 3D 模型。

但真正将杨强引上计算机道路的是当时也在马里兰大学学习的彭云,彭云是烈士江姐的儿子,也是文革后留学美国的学生中,最早研究人工智能和在美国取得计算机教职的人。受彭云影响,杨强不仅在拿到天文学的硕士后又拿了一个计算机硕士,之后在攻读博士时,也改行选择了做人工智能与逻辑推理的方向。

杨强在马里兰大学拿到博士学位后,先后在滑铁卢大学和 Simon Fraser 任教,也正是在 Simon Fraser 与韩家炜共事期间,杨强接触到了很多关于数据挖掘的东西。当时杨强刚刚拿到终身教职,他希望去做一些可以解决实际问题的研究而不光是写论文,于是选择了基于实例的推理(Case Base Reasoning)方向;而数据挖掘正好能与他所做的这方面研究结合起来。所以杨强今日所做的迁移学习、联邦学习以及大数据方面的研究,其实可以从 Simon Fraser 时期算起。

杨强与裴健也关联颇多,当裴健来到 Simon Fraser 攻读韩家炜的博士生时,杨强恰好是计算机系研究生院的Chair,因此裴健来到 Simon Fraser 时最终是杨强签的字,在之后的学术研究中杨强也对裴健给予了诸多支持和鼓励,后来两人也有诸多交集。这两个人的关系像极了机器人领域的两位超级大牛 Vijay Kumar 和徐杨生,他们在卡纳基梅隆大学相遇时也是一个刚刚博士毕业的青年教师,一个是博士生,这种明师实友的交往成为他们一辈子最珍惜的青春财富。

Vijay Kumar是 CCF-GAIR 2016-2017 两年的明星讲者,而徐杨生是 CCF-GAIR 最重要的发起人之一,大叔作为 CCF-GAIR 的发起人之一曾经与徐杨生校长共同接待并陪伴Vijay Kumar前后多日,目睹了Vijay Kumar与徐杨生之间跨越时空的友谊。

回来八杨强,1998 年,李开复筹建微软中国研究院时力邀杨强“回中国来看一看”,恰逢杨强次年有一段学术休假期,于是便利用这一机会来到了微软中国研究院。杨强帮助微软做了中国最早的一个搜索引擎,他在微软亚研做项目到 2000年(大叔的师兄王海峰也在此期间参与该项目,算起来,王海峰也是中国最早做搜索的几个人之一,王海峰今天升任百度 CTO,也是名至实归),直到微软决定把搜索引擎的研究拿到总部去做为止。

在微软亚研的经历让杨强感觉到了中国正在崛起,开始动了回来的念头,但考虑到国内研究的基础环境,最终与家人商量后选择了一个折中方案,去了香港科技大学,与国内和国际学术界、产业界均保持紧密的合作。2004 年和 2005 年,杨强团队连续两年在 KDD Cup 上获得冠军,杨强本人也在 2010 年担任 SIGKDD 的程序主席及 2012 年北京 SIGKDD 的大会主席(这一年 SIGKDD 的程序主席正是裴健)。

也正是在 2012 年,在任正非的推动下,华为开始关注大数据并在香港成立了诺亚方舟实验室,杨强任首任主任,后任者还有今天去了头条的李航。

杨强曾经告诉左林大叔,诺亚方舟的最初目标虽然是大数据,但他认为当时 Hadoop、Spark 这些工具已经比较成熟,因此提议将一大部分资源放到人工智能与机器学习的研究上。当时人工智能正处于低谷,诺亚方舟作为第一批做人工智能的工业实验室,对于希望去工业界的博士来说还是很有吸引力的。

当时 Yann Lecun 还向杨强推荐了几个博士后,条件都谈得差不多了,最后这几个博士后还是被一家在英国的初创公司“截胡”了。又过了几年,杨强在新闻上再一次看到了这家初创公司的名字:DeepMind。如果这几个博士后选择的是诺亚方舟,不知先做出 AlphaGo 的会不会是华为呢?

就在 AlphaGo 火了的 2016 年,杨强发起成立了 ACM 数据挖掘中国分会(KDD China)并担任主席。仅在 2016 年,KDD China 就已经组织了十项活动,大力促进了 SIGKDD 在中国的发展,为中国工业和学术界之间架起了桥梁。正因为多年来在数据挖掘领域的非凡服务和贡献,杨强在 2017 年的 SIGKDD 上获得了卓越服务奖。

和杨强一样横跨机器学习和数据挖掘两大领域的还有南京大学的周志华。周志华本硕博均在南京大学,是人工智能界佼佼者中少有的本土博士。周志华的导师是陈世福,陈世福教研组主要的科研项目方向是专家系统,周志华自己进入当时尚属冷门的机器学习领域,一直坚持了下来。由于当时“数据挖掘”比“机器学习”更容易被应用单位理解,他也开展了作为机器学习应用的数据挖掘研究工作。2007 年的 PAKDD 在南京大学召开,杨强和周志华正是大会的两大 Program Chair。

顺便说一句,PAKDD 现在在 CCF 的国际顶会名单上虽然只是 C 类会议,实际上却是数据挖掘和知识发现领域历史最悠久、领先的国际会议之一(像吴信东创办的 ICDM 属于后起之秀),在国外口碑很好。第一届 PAKDD 于 1997 年在新加坡召开,第一届委员会中的华人包括刘兵和刘欢,当时两人均在新加坡国立大学任教,属于近水楼台先得月。

刘兵后来去往伊利诺伊芝加哥分校,不仅积极参与KDD社区组织工作,在1998年发表的《Integrating Classification and Association Rule Mining》及2004 年发表的《Mining and Summarizing Customer Reviews》分别在 KDD 2014 及 KDD 2015 年连续两届获得时间检验奖,他本人也在 2013 年被当选为 SIGKDD 第一位华人主席。

刘欢则是前往亚利桑那大学,他本人也是横跨信息检索与数据挖掘领域的高被引学者,在他的带领下,他的两个学生胡侠、汤继良也积极参与 KDD 社区活动,担任了近几届 SIGKDD 大会的分领域 Chair,胡侠还是 CCF-GAIR 2018 和 CCF-GAIR 2019 两届的明星讲者。

周志华在2004年在南京大学创建了机器学习与数据挖掘研究所(LAMDA),经过十余年的发展,LAMDA 已成为国内机器学习与数据挖掘最具影响力的机构。杨强发起成立 KDD China,周志华出任 KDD China 副主席,另一位副主席、百度高级副总裁沈抖是杨强的博士生。杨强团队在 2005 年 KDD Cup 夺冠,沈抖就是其中一员,也是公认的一号位。

这一年夺冠队伍里,有一位我们的老熟人,也是 CCF-GAIR 2017 的讲者,IPin的联合创始人潘嵘,当时潘嵘在给杨强做博士后。还有一位杨强的博士后,后来去微软的孙剑涛,其他的则都是杨强教授的博士:潘军锋(FB) ,吴康恒(香港某科技公司),寅洁(澳洲)。杨强教授的学生里还有一位不是博士生胜似博士生的超级大牛戴文渊,戴文渊今天是数据挖掘和深度学习明星公司第四范式的创始人,也是交大 ACM 班的明星学生之一,戴文渊和交大ACM班的故事也是我们《中国人工智能简史》的重要章节。

第一届 KDD Cup 于 1997 年举行。作为目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,KDD Cup 每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛。它被誉为大数据领域的“奥运会”。

KDD Cup 的题目大都强调实用性,历年的竞赛所用数据往往被数据挖掘从业者用作研究和开发的良好训练数据。KDD Cup 前期多为大学来承办,近 10 年来多为企业承办,也反映出有价值的大规模数据逐步从研究机构转向由业界公司掌握的趋势。

早在 2004、2005 年,香港科技大学教授、IEEE Fellow 杨强就作为领队引导其团队连续两年拿下 KDD Cup 比赛冠军。略有不同的,2005 年杨强是亲自带学生,2004 年 KDD Cup 是杨强与中科院高文团队合作,当年的试题之一是蛋白质同源性预测,生物信息检索正好是高文老师研究的方向之一,2002 年,高文课题组成功申请到国家 973 项目下的“基于信息技术的蛋白质组研究”课题,这或许正是中国队伍在这一年的 KDD Cup 取得突破的原因。

言归正传,KDD 2004 的赛题要求参赛者运用各种数据挖掘、机器学习手段从训练数据中找出规律,将康奈尔大学开发的蛋白质折叠识别程序LOOPP 生成的 74 个蛋白质同源性度量指标合并成一个同源性打分函数,对数据库中的蛋白质与查询蛋白质之间的同源性进行预测。这一题目有三个难点:一是数据具有块结构形式;二是训练样本数量巨大;三是训练数据的类别分布极端不平衡。

对于这一问题,当时的主流方法是利用SVM和最大熵等判别模型来构造排位函数,高文则是在此基础上,使用了一个线性判别模型合并从隐马科夫模型导出的多个特征,最终这一方法有效地提高了检索函数学习的准确性,从而在 KDD CUP-2004 蛋白质同源性预测问题上得到了非常成功的应用。

最终的预测结果取得了 APR 和 RMS 指标第一名,TOP1 指标第二名,RKL 指标第十四名,综合成绩并列第一名的成绩。这是中国研究人员首次在 ACM KDDCUP 数据挖掘竞赛取得优胜。这也是中国的学术研究人员在国际顶会的竞赛项目取得冠军的最早突破之一,之所以说是之一,是几乎是同期,丁晓青团队在 ICPR 上取得 FAT 2004 人脸比赛的第一名。

按照大叔的大学同学,也是 KDD Cup 2004 年的冠军成员之一的山世光的描述,这次夺冠的第一主力是付岩,付岩后来从计算机去了数学所,当时是计算所两位教授高文和贺思敏共同的博士生,贺思敏是这次比赛夺冠的 leader,另一位主力孙瑞祥也是当时贺思敏团队成员。

哦,忘了恭喜山世光名列 2019 腾讯首届科学探索奖的 50 名青年科学家行列。

说来也巧,周志华作为香港科技大学计算机系聘请的不多几位内地荣誉兼职教授,第一次到香港科大访问时,去接站的就是当时在读博士生,KDD Cup 2005 的第一主力沈抖。沈抖毕业后进入工业界,在加入百度前是微软西雅图 AdCenter 实验室的研究员。

KDD China主持具体工作的负责人秘书长郑宇,现任京东副总裁,之前是微软亚洲研究院的明星研究员,同样是 CCF-GAIR 多届明星讲者,2016 年第一届 CCF-GAIR,郑宇就是程序主席,为 CCF-GAIR 大会做了不少工作。

郑宇也还是 KDD 社区的活跃组织者。他从 2011 年开始参加 SIGKDD,之后每年的 SIGKDD 大会都会参加。郑宇很早就在 SIGKDD 上举办城市计算的 Workshop,到今年(2019年)已经是第八届。从 2016 年起,KDD China 在 SIGKDD 上开始举办"Data Science in China "论坛主题活动,活动的主要组织者也是郑宇,这一活动的举办也有力展示了中国在数据挖掘领域的实力。

如果说 2016 年是华人在数据挖掘领域全面发力的拐点,那么接下来的时间则是华人数据挖掘的高光时刻。在 SIGKDD 2017 上,不仅裴健接任刘兵当选 SIGKDD 主席,在三大奖项中,杨强获得杰出服务奖、裴健获得创新奖,华人得其二,此外,本届大会的最佳应用论文被西弗吉尼亚大学叶艳芳团队获得,同时中国队伍包揽了这届 KDD Cup 的所有奖项。

在接下来的 SIGKDD 2018 上,不仅刘兵、唐杰再度包揽创新奖及杰出服务奖两项大奖,郭毅可、唐杰、熊辉、林智仁、杨强等人担任了大会主席、副主席、程序主席、评奖委员会主席等重要角色,在评奖委员会的八人名单中,华人更是占到五人(杨强、韩家炜、裴健、王薇、俞士纶),“中国力量”俨然成为这几年 KDD 的主基调。

在左林大叔看来,在诸多人工智能相关的领域中,数据挖掘是华人参与度最高、也是最有望实现超越的领域。这不仅是因为强调“动手能力”的数据挖掘更能发挥中国人的长处,还因为数据挖掘是一门与产业密切结合的学科,中国庞大的市场与人口基数,以及新一批互联网科技公司的茁壮成长,都为中国人引领世界潮流提供了坚实的基础。

罗马不是一天建成的,今日数据挖掘领域所呈现的“中国力量”,有数据挖掘老中青三代人的不懈努力,更离不开研究者们的薪火相传。不过关于数据挖掘的故事,大叔更愿意用天时地利人和来形容:

所谓天时,是韩家炜、俞士纶、陆宏钧等最早一批进行数据挖掘的研究者,恰逢数据挖掘兴起之时就积极参与其中,为后来华人社区的壮大打下了坚实的基础;

所谓地利,是从上世纪 90 年代起中国高速发展崛起的过程中,对数据挖掘的旺盛需求为新一批数据挖掘中坚力量的崛起供了良好的机会;

所谓人和,是裴健、杨强、刘兵、刘欢、周志华、吴信东、郑宇等之后一批数据挖掘的领军人物与中坚力量发挥了承上启下的作用,在参与数据挖掘社区活动的同时,积极带动其他后起之秀参与到社区中来,使得华人赢得了数据挖掘社区的尊重。

前排左起:刘兵、韩家炜、杨强、裴健

后排左二:郑宇 左四:刘欢

从行业周期的角度看,从 1989 年知识发现的概念提出到今天,数据挖掘刚刚走过了三十年的一个完整周期。从这一角度看,授予裴健院士是一个肯定的信号,也预示着数据挖掘下半场拉开了序幕。

再度恭喜裴健被评为院士,也恭喜投身数据挖掘领域的各位研究者们,你们正站在一个新时代的起点。大叔预计在不久的将来,这个领域会有更多的研究者获得他们应有的荣誉,也希望各位研究者们在未来三十年中保持初心,壮志前行,继续书写数据挖掘的辉煌。

数风流人物,还看今朝。

推荐内容