李纪为：他的创新正在让Siri们更能懂你，而不再只是AI“空话生成器”

时间:2020-01-22 15:03:13
浏览:241
来源:世界杯买球盘口网址app

2019 年 12 月 14 日，《麻省理工科技评论》宣布了 2019 年“35 岁以下科技创新 35 人”（Innovators Under 35 China）中国区榜单。在本届榜单上，虽然缺失了“创业家”的身影，可是我们看到了许多在具有工业化潜能的领域坚持科研使命的获奖人，也看到更多散布在外洋顶尖学术机构的科学家们，用自身不改初心的坚持努力，取得了世界级标竿成就的科研结果，其中有凌驾半数以上的获奖者，都取得了世界级的突破性研究结果与发现。我们将陆续发出对 35 位获奖者的独家专访，先容他们的科技创新结果与履历，以及他们对科技趋势的明白与判断。

关于 Innovators Under 35 China 榜单

自 1999 年起，《麻省理工科技评论》每年都市推出“35 岁以下科技创新 35 人”榜单，旨在于全球规模内评选出被认为最有才气、最具创新精神，以及最有可能改变世界的 35 位年轻技术创新者或企业家，共分为发现家、创业家、远见者、人文眷注者及先锋者五类。2017 年，该榜单正式推出中国区评选，遴选中国籍的青年科技创新者。新一届 2020 年度榜单正在征集提名与报名，停止时间 2020 年 6 月 30 日。详情请见文末。

李纪为

先锋者

李纪为凭借其在对话系统领域取得的一系列结果，荣膺 2019 年《麻省理工科技评论》“35 岁以下科技创新 35 人”中国区得主。

获奖时年事：30 岁

获奖时职位：香侬科技首创人兼 CEO

获奖理由：他将深度学习尤其深度强化学习用在对话系统上，让机械在与人交流时不再如此前一样单一枯燥。

诸如苹果 Siri、微软小冰这样的对话机械人，已经渗透到了越来越多人的日常生活中。它们从降生初期的傻气到已经具备一定的智能体现，背后是近年来自然语言处置惩罚（NLP）科学家们在对话系统上的努力。

对话机械人，在 NLP 领域称为对话系统（Dialogue System），本质上都是通过机械学习和其他 AI 技术让机械明白人的语言。因为深度涉及人的语言，这个偏向也是 AI 技术中难度相当大且综合性强的偏向。

回望近年来的对话系统的进化，李纪为的创新事情将在其中占据重要篇幅。

这位本科就读于北京大学生命科学学院、博士阶段彻底“脱轨”进入盘算机领域的“一连跨界者”，最终在盘算机科学的汪洋大海中找到了他真正钟情的偏向—— NLP，并成为斯坦福历史上第一位 3 年获得盘算机科学博士学位的学生。

在自然语言处置惩罚远不如现在火热的时候，他在学校的课堂中感受到了 NLP 的魅力：一些简朴优美的方法就可以用来表达人类语言这样庞大难明的存在。这在他看来简直是不行思议。

2014 年，从康奈尔大学生物医学工程系肄业的李纪为，加入斯坦福大学盘算机学院语言处置惩罚组 Prof. Dan Jurafsky 课题组，开始从事段落分析、机械翻译、人工对话生成等研究事情。

彼时，也恰逢深度学习为 NLP 这一古老学科带来新的活力：原有的瓶颈不停在这个新的技术工具的资助下获得突破，与此同时，也不停有新的问题让研究者们跃跃欲试。

而在李纪为 2014 ~ 2017 年三年的斯坦福博士生涯中，他也是最早一批乐成将神经网络用在改良对话系统的先行者之一。

对话系统恒久以来存在的几大挑战包罗多轮对话、针对差别用户举行个性化对话、生成有意义并贴切的回复几大问题。

例如李纪为在 2015 年揭晓的一项事情，就让机械更好地学会给出有意义的回覆，而非仅仅返回诸如“哈哈哈哈”这样的万能回复。在多轮对话中，这样的回复经常泛起可是没有实际意义，容易使得多轮对话陷入死循环。而这项名为“A Diversity-Promoting Objective Function for Neural Conversation Models”的事情，探讨了在对话生成任务中的主流模型 Seq2Seq 淘汰这种空话生成的可能性，显著地提高了生成式对话系统质量。

2016 年 EMNLP 所吸收的“Deep Reinforcement Learning for Dialogue Generation”，则更深入探讨了对话系统上述的问题。李纪为提出的用强化学习训练对话神经网络的方法，展示了强化深度学习可以资助提高对话系统的对话轮数，以及对话中的词语多样性，另外，深度强化学习还可以让两个 BOT 相互对话以发生大量的训练数据，这可在实际应用中资助解决一部门数据缺失的问题。

图 | 李纪为在颁奖仪式上做演讲（泉源：DeepTech）

而在工业界，对话系统有望彻底改变人机交互方式，因此也被认为有着庞大商业潜力。随着移动智能手机的普及、网络毗连的改善，多个外部因素也推动对话系统不仅仅是学术研究的热点，也成为了包罗谷歌、微软、亚马逊、Facebook 等大公司追逐的热点，大量初创公司也在这个偏向上涌现。李纪为在对话系统上的诸多科研事情，也随之在工业界中获得越来越广泛的应用，包罗微软、谷歌等公司都曾基于其事情生长新的应用。

停止现在，李纪为已在 ACL, EMNLP, ICLR, WWW 等国际顶级集会、顶级期刊上，以第一作者身份揭晓近 30 篇论文。据剑桥大学学者 Marek Rei 公布的自然语言处置惩罚顶级集会作者统计显示，他是顶级集会论文第一作者数量排名第一的学者，也是自然语言处置惩罚领域论文被引用量最高的青年学者之一。其中的大量事情是在其如同摁下快进键的博士生涯中降生的。

也正是读博阶段，李纪为发生了归国从事 NLP 研究的想法。

“有一次，我跟一个朋侪谈天，她是美籍华人，谈话中提到了一个词，‘贤惠’，她问我这个词是不是 salty（咸的）。我其时的反映是，如果我的孩子以后不会说中文，或者说不能很好地明白中文，我得何等伤心啊！” 他说。

他也认为，中文自然语言处置惩罚仍然有着大量的重要问题值得探索。李纪为说：“中文作为世界上最古老且最庞大的文字之一，它的衍变迭代，反映出了中国文化的渊源历史。曾经，没有一种技术是能以中文和中国文化为突破口的，但我以为自然语言处置惩罚可以。”

比尔·盖茨和沈向洋博士也曾表现，“语言明白是人工智能皇冠上的明珠”、 “懂语言者得天下”，以盘算机视觉为代表的感知智能迎来落地潮之后，以 NLP 为代表的认知智能将是 AI 领域值得关注的下一个进化偏向和竞争重点。

现在，李纪为已经在海内建立了自己的公司“香侬科技”，以期让 NLP 技术真正资助金融等传统领域实现智能化升级。

与此同时，他也将继续探索将神经网络应用于 NLP 的事情，详细包罗基于深度学习的人机对话系统、知识知识与语料数据联合的信息抽取、深度学习模型可解释性机理研究、自然语言语义单元表现与语言生成等。

值得一提的是，香侬建立之后，基于中文的 NLP 方法和模型，也成为了李纪为的一大新兴趣点。在这个偏向，他和他的团队提出了例如基于汉字字形的语义明白模型 Glyce、基于中文上下文语义的汉字光学字符识别（OCR）模型、可替代中文分词的字级别中文神经网络模型等。

李纪为认为，在中文 NLP 上所做的新探索，正在逐步向各界渗透有关中文的语言魅力，也在展现中国在人工智能方面的生长结果。

“中文自然语言处置惩罚之所以难，不仅仅是因为庞大的字形原因，另有分词问题，英文单词之间以空格作为自然分界符的，而中文以字为基本的书写单元，词语之间没有显着的区分标志，同时相较英文的语法和人们常用的表达句法模式，中文的语法和人们日常表达的句法模式更为庞大和多元化，且中文表达中所用的词歧义较多，所以，基于中文的自然语言生成面临着许多的难题。

所以我们以为如若将基于中文的技术研究好，不仅可以为我国在人工智能的技术生长中，孝敬一些小的气力，同时在将这些论文和模型推向美国等国家的使用历程中，可以让外国学者在中国技术生长的角度上有一些改变。

在公司建立一年多，做的最有意义的事情，就是针对中文提出了多项基于中文的自然语言处置惩罚模型和方法。” 他说。

李纪为在颁奖仪式上的演讲

-End-

【正在报名】