十年育林,百度NLP已枝繁叶茂

2020-08-09 11:18:02

客服外包-淘宝客服外包-网店客服外包-网络客服 http://www.kefuwaibao168.com

呆板之心原创

作者:张倩

种一棵树,最好的时间是十年前,其次是现在。——Dambisa Moyo

7 月 10 日,自然语言处置惩罚顶会 ACL 2020 落下帷幕。本次大会共收到 3429 篇论文投稿,其中 779 篇被吸收,吸收率为 22.7%,与客岁持平,低于比年来大部门年份的吸收率。

在这 779 篇论文中,有 185 篇来自中国大陆,占被吸收论文总数的 23.7%,仅次于美国。别的,本年的最佳论文二作和最佳 demo 论文一作均为华人学生。

然而,许多人可能不知道,2000 年 ACL 年会在中国香港举办时,只有微软中国研究院的论文来自中国大陆;到了 2005 年,来自负陆的论文也只有三篇。

许多变化是已往十几年产生的,尤其是已往的十年。在这十年里,中国的 NLP 学界在 ACL 年会中的投稿数、被吸收论文数逐年上升,同时,中国的 NLP 学者也实现了多个 “第一次” 的突破:

2013 年,王海峰出任 ACL 五十年来首位华人主席;

2014 年,吴华出任 ACL 程序委员会主席,成为中国企业首位 ACL 程序委员会主席;

2015 年,ACL 年会初次在中国举办;大会上,哈工大教诲部语言语音重点实验室主任李生教授得到 ACL 终身成绩奖,成为首个得到该奖项的华人;

2016 年,赵世奇当选 ACL 秘书长,成为首位当选该职位的亚洲人;

2018 年,ACL 宣布创建亚太区域分会(AACL)并计划在 2020 年举行初次集会,由王海峰担任首创主席;

2020 年,百度领衔组织了 ACL 大会上首场同声传译研讨会(The 1st Workshop on Automatic Simultaneous Translation);

……

从这些突破中,我们可以看到中国科学家的快速发展,看到中国 NLP 学界在国际上不停扩大的影响力,看到百度这家中国互联网公司跻身世界科技巨头的积极。

为什么一家中国互联网公司可以或许吸引众多 NLP 领域的科学家,可以或许成为国际 NLP 顶会的紧张参与者?我们也允许以从百度早期的战略结构中找到线索。

早在十年前,百度就已经在 ACL 大会上留下了中国互联网企业的身影。彼时,第三次人工智能海潮还没有掀起太多波涛,李世石和 AlphaGo 的里程碑式对弈另有六年才会产生。

本年正值百度 NLP 的第十个年初,我们回首一下已往十年的旅程,看看以百度为代表的中国企业如何依附对整个领域的洞察在 NLP 领先结构、连续投入前沿技能研究及产业实践,这对于当下提升科技竞争力以及如安在行业发展早期做好战略结构仍具有鉴戒意义。

百度与 ACL 的十年交集

2010 年,百度进入创建之后的第二个十年,中国互联网也进入了高速发展期。

其时,百度已经积累了大量的数据和用户群体,有着富厚的应用场景可以挖掘。对于需要大量真实数据并希望自己的结果服务宽大用户的研究者来说,百度的这些特质有着强盛的吸引力。于是,在这一年,百度迎来了 NLP 领域知名科学家——王海峰博士。

王海峰本硕博都结业于哈工大,早在博士期间就做过将神经网络引入呆板翻译的研究。进入百度之前,他曾先后就职于微软中国研究院、东芝等,并与 ACL 结缘,2004 年开始在 ACL 上发表论文,2006 年曾有 5 篇论文被收录。

除了海量的数据、富厚的应用场景之外,真正让王海峰下定刻意加盟百度的契机实在是 2009 年 8 月的“百度世界大会”。

与以往三届差别,2009 年百度世界大会给人的感觉是格外具有技能味道。李彦宏在这届大会上推出了全新计算平台 “框计算”——用户只要在”百度框”中输入服务需求,体系就能明确辨认这种需求,并将该需求分配给最优的内容资源或应用提供商处置惩罚,终极精准高效地返回给用户相匹配的结果。

从这次大会中,王海峰看到了百度对 AI 技能的器重和谋划。他敏锐地判断出,如果百度沿着“框计算” 的思绪进一步发展,就需要更强盛的自然语言处置惩罚技能的支持,尤其是语言分析、语义理解、知识图谱等偏向。

2010 年,进入百度之后,王海峰所做的第一件事就是建立了“自然语言处置惩罚部”。

在此之前,百度在 NLP 方面的研发事情一直在业务需求下举行,并没有组成体系。NLP 部门的建立改变了这种 “指哪儿打哪儿” 的局面,对原有的事情举行了重新梳理与规划,除分词、专名辨认、query 需求分析、query 改写等传统偏向得到增强外,也逐步建设了呆板翻译、呆板学习、语义理解、智能交互、深度问答、篇章理解等新的技能偏向。

也是在这一年,王海峰敲定了百度在知识图谱技能上的研发投入,而其时,知识图谱还不是一个热门的研究偏向。

踏实的技能配景和富厚的行业经验赋予了王海峰在 NLP 领域强盛的背书能力。因此,他的加入进一步提升了百度的人才吸引力,帮助百度招揽了以吴华博士为代表的一大批技能主干。

吴华博士在人工智能领域浸润 20 余年,专注于自然语言处置惩罚。据统计,她在呆板翻译及自然语言处置惩罚领域授权或公然的专利申请有 100 余项,发表学术论文 60 余篇。

随着技能主干的加入,百度开始在 NLP 领域的国际顶会中崭露锋芒。2010 年,王海峰、吴华的一篇论文被 ACL 任命,百度也成为到场这个国际顶会的首其中国互联网企业。

在这之后的十年里,百度险些每年都会在 ACL 上展示最新的研究结果,成为这一国际大会的紧张参与者。同时,在王海峰等人的不停积极下,中国研究者在 ACL 上的影响力不停扩大,开始拥有更多的话语权。

2013 年,王海峰出任 ACL 五十年来首位华人主席。

在王海峰等人的配合推动下,2015 年,ACL 初次在中国举办,体现了国际学界对中国自然语言处置惩罚研究的器重和认可。

2018 年,在第 56 届 ACL 年会开幕式上,时任 ACL 主席 Marti Hearst 宣布创建亚太区域分会(AACL)并计划在 2020 年举行初次集会。之后每两年举行一次集会,集会所在将设置在亚太地域,由王海峰担任 AACL 首创主席。

2020 年,百度 11 篇论文被 ACL 收录,笼罩了语义表示、情感分析、自动择要、对话体系、呆板翻译、知识推理、AI 辅助临床诊断等诸多热门与前沿研究偏向。同时,百度联合谷歌、Facebook、清华大学等全球顶尖机构配合举办了首届同声传译研讨会,就 ERNIE 焦点技能、开放域人机对话技能、智慧医疗、生物医药等业内存眷的话题做了演讲,展现了中国企业在 NLP 及 AI 领域的技能创新与产业实践。

如果将十年前的百度 NLP 比喻成一片苗圃,那么,颠末十年的浇灌,这片苗圃已然成林。王海峰等人的孝敬在于,他们很早就选到了优质的树苗并悉心培育。

从本年百度被 ACL 吸收的论文以及最近公布的研究进展中,我们可以看到这种前瞻视野和结构带来的丰硕结果。

从 ACL、百度看 NLP 十年研究趋势

如果仔细观察近几年的 ACL 吸收论文和百度公布的研究结果,我们不难发明 NLP 领域的几个研究趋势,包括 1)越来越多的研究者将知识融入到 NLP 模子中,以提高模子的理解和推理能力;2)多模态语义理解越来越受存眷,同时在视频网站、电商物流、自动驾驶等领域得到遍及应用……

将知识融入 NLP 模子

语言和知识促进了人类文明的发展。人们从大量的数据和信息中获取知识,语言是凝炼和传承知识的载体,进而又将知识应用于生产生活的方方面面。早在十年前,王海峰就敏锐地觉察到知识的紧张性,开始结构知识图谱技能并渐渐加大研发投入。百度将多源异构的海量互联网信息汇聚在一起,从中挖掘知识、构建大范围图谱。而其时,知识图谱对于大多数人来说还比力生疏。

2014 至 2017 年间,基于互联网大数据和搜索应用,百度知识图谱技能发展非常迅速。2016 年,百度构建了全球最大的知识图谱,拥有数亿实体、数千亿事实。2017 年,基于知识图谱技能突破和产业化应用,百度 “知识图谱技能及应用” 项目得到“中国电子学会科技进步一等奖”。

今后,面向现实应用场景,百度体系地拓展了多源异构知识图谱的研发与应用。针对差别的应用场景和知识形态,构建了存眷点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱。从认知深度、信息宽度和领域广度多维度对实体图谱举行了体系性的拓展和升级。在领域广度方面,则从通用领域拓展到涵盖医疗、法律等行业在内的具有强知识性的专业领域。

特别地,在医疗领域,基于知识图谱技能的辅助医疗决议等产物目前已在天下 300 多家医院、1500 多家下层医疗机构范围化落地应用。相干产物荣获 2019 年天下医疗人工智能应用创新奖。2019 年 7 月,在百度开发者大会上初次公布了“行业知识图谱平台”,整合知识图谱构建、存储、问答、推理等技能能力,为行业知识的获取与应用提供一体化解决方案。

别的,早在 2011 年,百度就着手研究基于知识的语言解析。2012 年,百度研发了基于海量数据训练的神经网络深度语义匹配框架——SimNet。该框架率先将语义表示与匹配计算同一在一个端到端的神经网络模子里,并联合中文语言特性融合了多粒度知识,支持千亿范围真实搜索点击数据训练。

客岁,百度先后公布了知识增强的语义表示模子 ERNIE 和连续学习语义理解模子 ERNIE 2.0。2019 年 12 月,ERNIE 在国际权势巨子的通用语言理解评估基准 GLUE 上初次突破 90 大关,逾越人类三个点,得到全球第一。本年 3 月,在全球最大范围的国际语义评测 SemEval 上,ERNIE 得到 5 项世界冠军。在刚刚落下帷幕的世界人工智能大会,百度文心(ERNIE)知识增强语义理解技能与平台得到了大会最高荣誉奖项“卓越人工智能引领者”(SAIL)奖。

这些突破的取得,都离不开百度在相干偏向上的前瞻结构和连续投入。

多模态语义理解

多模态语义理解是解决庞大场景智能化应用的要害技能,比年来备受存眷。

2010 年左右,科技产业处在迅速的变化之中,人们对信息前言的需求已不仅仅局限于笔墨,而是向语音、图像等多个偏向扩展。于是,险些在建立 NLP 部门的同一时期,王海峰就已开始着手结构语音技能和视觉技能,牵头组建了其时的“多媒体部”。

这一决定是非常具有前瞻性的。由于其时,除了与搜索强相干的 NLP 业务,早期百度并没有太多相干的智能技能需求。在多媒体部建立的初期,许多人也不知道这些技能有什么用。

依附在语音、视觉、语言与知识等领域多年的技能积累与融合,2018 年百度公布了以 “多模态深度语义理解” 为焦点的百度大脑 3.0。百度大脑是百度 AI 焦点技能引擎,包括视觉、语音、自然语言处置惩罚、知识图谱、深度学习等 AI 焦点技能和 AI 开放平台。如今,百度大脑已经向全部开发者开放了 260 多项 AI 能力,其中包括呆板同传、照相翻译、文档解析、图文审核、视频分类、对话情绪辨认、图文转视频等融合文本与语音、视觉技能的能力。

本年,百度在多模态语义理解上取得新突破,提出了知识增强的视觉 - 语言预训练模子 ERNIE-ViL。ERNIE-ViL 初次将场景图知识融入多模态预训练, 刷新了 5 项多模态使命纪录,并登顶权势巨子榜单 VCR。

除了这些之外,比年来,百度 NLP 还在语义计算、阅读理解、多轮对话、呆板翻译、开放平台与数据等偏向取得了突破性进展,并实现了大范围产业化应用。

对比百度所取得的 NLP 技能结果和 ACL 十年来的研究趋势,我们可以发明,这家公司对于 NLP 研究趋势的掌握是非常精准的,而这些都得益于王海峰等领武士物对该领域的长期洞察。

正如非洲经济学家 Dambisa Moyo 在一本书里所提到的,“种一棵树,最好的时间是十年前,其次是现在”。在 NLP 领域,百度既没有错过十年前的黄金 “种植期”,也没有在十年的每一个“现在” 里松懈。尊重技能的发展纪律,敏锐掌握产业需求变迁,连续、坚定的投入,百度当年种下的一棵棵 NLP“小树”已经长成一片树林,而且还在不停生长出新的树苗。

在王海峰、吴华等研究者的领导下,我们有来由期待百度 NLP 的下一个十年。

参考资料:《AI已来:让中国AI走向世界的王海峰》

本文为呆板之心原创,转载请接洽本公众号得到授权。

✄------------------------------------------------

加入呆板之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务互助:bd@jiqizhixin.com

上一篇:

下一篇:

关于我们

惠山信息港是领先的新闻资讯平台,汇集美食文化、生活百科、教育科研、体育健康、商旅生涯、投资理财、等多方面权威信息

版权信息

惠山信息港版权所有,未经允许不可复制本站镜像,本站文章来源于网络,如有侵权请邮件举报!