人机反抗智能技术

  • 时间:
  • 浏览:186
  • 来源:世界杯买球盘口网址app

作者: 黄凯奇*, 兴军亮, 张俊格, 倪晚成, 徐博

中国科学院自动化研究所智能系统与工程研究中心

摘 要

人机反抗作为人工智能研究的前沿偏向, 已成为海内外智能领域研究的热点, 并为探寻机械智能内在生长机制和关键技术验证提供有效试验情况和途径. 本文针对巨庞大、高动态、不确定的强反抗情况对智能认知和决议带来的庞大挑战, 分析了人机反抗智能技术研究现状, 梳理了其内在和机理, 提出了以博弈学习为焦点的人机反抗智能理论研究框架; 并在此基础上叙述了其关键模型: 反抗空间表现与建模、态势评估与推理、计谋生成与优化、行动协同与控制; 为庞大认知与决议问题的可建模、可盘算、可解释求解奠基了基础. 最后, 本文总结了当前应用现状并对未来生长偏向举行了展望.

人机反抗智能技术

黄凯奇, 兴军亮, 张俊格, 倪晚成, 徐博

中国科学: 信息科学, 2020, 50(4): 540-550

1

引言

人类社会的生长史就是自身矛盾不停变化演进的历史. 比力、对比、竞争、斗争, 种种差别形式的反抗广泛存在于人类社会中的经济、政治金融和生活等各个领域和行业之中. 反抗双方是人类差别的个体与个体、个体与群体以及群体与群体之间, 反抗贯串于整小我私家类文明生长历史当中, 也在不停地促进人类智能的提升和进化. 随着社会不停生长和技术不停进步, 反抗的庞大度, 如速度、强度等都在呈指数级别增长. 人类的感知和决议能力由于受自身生理和心理方面的限制, 面临庞大、动态、反抗情况下智能认知与决议需求, 迫切需要以机械为载体的人工智能技术的辅助与支撑.

人工智能技术的生长通常可分为盘算智能、感知智能和认知智能3个阶段[1]. 传统的人工智能以强大的盘算能力为主要特征, 其特点是快速盘算和影象存储能力大幅逾越人类. 近年来, 以机械学习为代表的人工智能技术获得了飞速生长, 使得机械获取、处置惩罚和分析信息的水平获得了大幅提升. 感知智能算法在语音处置惩罚、图像识别、文本翻译等诸多问题中都已经到达甚至局部凌驾人类的感知能力[2~4]. 在认知决议领域, 以AlphaGo [5]、冷扑大师[6] 等为代表的智能博弈算法在界限确定、规则牢固的人机反抗问题中已经战胜了人类顶级专业选手, 为人工智能技术由感知智能向认知智能跨越式生长带来了新的曙光.

人工智能从降生之始就以反抗人类智能为权衡准则(著名的图灵测试) [7]. 作为人工智能研究的前沿偏向, 人机反抗技术一直是海内外人工智能研究的热点, 以人机反抗为主要形式的人工智能研究为探寻机械智能的内在生长机制和关键技术原理提供了一个极佳的试验情况和验证途径. 基于人类现有的知识和智能水平, 通过研究和实现新型的智能学习算法, 使得机械智能在可控的规模内不停靠近、到达甚至凌驾人类的智能水平. 整个历程不仅能够让机械越发智能地为人类服务、将人类从一些繁复庞大的任务中解脱出来, 而且人类也能够借鉴机械智能的生长历程, 提升自身的智能水平, 更深刻地明白和掌握智能的内在本质和发生机理, 进而推动整个社会由信息化向智能化生长.

2

生长历史

从1936年人工智能之父阿兰·图灵提出著名的 “图灵测试” 之后, 人和机械之间举行智能反抗就成为了权衡机械智能生长水平的最重要尺度[8]. 从实现最初的简朴智能到不停进化成更为庞大的智能, 反抗贯串于人工智能中盘算、感知和认知的3个阶段(图1), 从某种意义上讲, 就如人类与自然情况的反抗促进了人类的进化, 机械与人的反抗也必将让机械智能不停生长进化.

图 1 人机反抗的生长历史

盘算智能主要以科学运算、逻辑处置惩罚、统计查询等形式化规则化运算为主要任务, 体现是能存会算会查找, 20世纪50年月, 盘算机的发现和普及为人工智能的生长注入了最初的驱动力, 使得盘算机很快在盘算速度和精度上凌驾了人类, 标志性事件就是1997年IBM的深蓝盘算机大战国际象棋世界冠军卡斯帕罗夫(Kasparov). 深蓝盘算机的国际象棋AI 法式基于人类棋手的履历, 总结了大量规则, 借助于盘算机强大的盘算和搜索能力战胜了人类国际象棋冠军.

感知智能主要以语音识别、图像明白、文本翻译等为主要任务, 体现是能听会说、能看会认. 21世纪伊始, 以深度学习为代表的机械学习技术在这些任务中取得了庞大突破[9, 10], 标志性事件包罗微软公司在2008年前后推出的基于深度学习的语音识别引擎大幅降低了识别错误率[2], 2012年的ImageNet竞赛中基于深度学习的图像分类模型以绝对优势取得第1名[3], 以及谷歌公司推出的高准确度实时语言翻译系统[4]等.

认知智能主要以明白、推理、思考和决议等为主要任务, 体现是能明白、会思考决议. 虽然盘算机在认知智能方面现在才刚刚起步, 还未到达人类的水平, 可是认知智能的应用前景辽阔, 影响深远, 因此认知智能相关的研究如火如荼[5, 6, 11, 12]. 近几年来, 以谷歌旗下的DeepMind公司为代表, 在认知决议智能方面取得了一些突破性希望, 其中标志性希望就是AlphaGo智能围棋博弈法式[5]在2016 年4 : 1 战胜人类围棋冠军选手李世石, 标志着人工智能的生长重点逐渐由感知智能向认知智能过渡. 2017 年, 加拿大阿尔伯塔大学(University of Alberta)和美国卡内基梅隆大学(Carnegie Mellon University) 提出的德州扑克AI 算法[5, 6], 在1 对1无限注德州扑克中, 击败了多名顶尖的职业德州扑克选手. 2018年OpenAI公司开发的OpenAI-Five智能法式, 以2 : 1击败了由5名人类职业选手组成的队伍, 2019年谷歌AI 法式AlphaStar以10 : 1 战胜人类职业选手. 鉴于决议等认知智能的重要性, 海内外高科技公司和机构围绕着博弈反抗举行了大量结构, 以此作为生长通用人工智能的路径之一. 2016年谷歌公布了基于星际争霸的游戏AI训练平台[13], 同年OpenAI公司公布了通用人工智能训练测试平台Universe, 2017年Facebook公司开源了游戏学习平台[14], 海内腾讯公司在2017年全球互助同伴大会上公布了AI战略, 围绕游戏、社交、内容3大场景, 并将博弈反抗AI做为第重要板块.

3

内在及机理

虽然人机反抗智能技术获得极大的关注, 并在差别应用领域展现出应用前景, 但其理论及相关技术现在还没有一个系统性的形貌, 本文将从内在、机理对其举行论述并在此基础上相关模型及关键技术.

3.1 人机反抗内在

人机反抗研究盘算机博弈中机械战胜人类的方法, 其更一般性的寄义是指在强反抗博弈情况下, 以人机反抗为主要形式研究机械智能战胜人类智能的内在机理和技术原理, 它是智能领域研究的焦点偏向, 通过人、机和情况之间的交互学习, 探索巨庞大、高动态和不确定的强反抗情况下机械智能快速增长的内在机理和途径, 以期最终到达或者凌驾人类的智能水平. 在人机反抗研究体系中, 人机反抗是促使机械智能快速增长的主要方式, 在人机反抗历程中, 人和机械之间相互借鉴学习. 凭据差别的应用, 人机反抗技术又可以体现为人机协同、人机融合, 以至到达最终的人机共生. 人机反抗的能力增强体现为首先从特定领域战胜单小我私家, 再到战胜群体, 最后在该领域逾越整小我私家类群体的智能水平.

总之, 人机反抗是以机械和人类反抗为途径, 以博弈学习等为焦点技术来实现机械智能快速学习进化的研究偏向. 作为“图灵测试”的重要手段, 人机反抗是验证机械智能的“试金石”, 为探寻机械智能的内在生长机制和关键技术的验证提供有效试验情况、评价尺度, 具有重要科学研究意义和应用价值.

3.2 人机反抗机理

人机反抗机理研究反抗各要素及其相互联系, 以及相互作用的运行纪律与原理. 要素是最小的组成单元, 人机反抗涉及的要素包罗人(机械的对手)、机械(反抗的AI)和情况(反抗的规则和条件等的荟萃体), 我们将之抽象为人、机、物3要素. 在强反抗情况下的人机反抗历程中, 反抗使博弈这个观点进一步扩展. 人或机械去感知和适应情况的历程也是人或机械与情况举行博弈反抗的历程. 由于情况自己的高度庞大性、动态变化性和随机不定性, 在与之博弈的历程中, 人或机械需要对它的静态特性举行建模, 同时还需要对它的动态特性举行学习.

凭据人机物3要素分析方法, 3要素相互作用划分形成一元博弈、二元博弈和三元博弈. 一元博弈是指博弈中只有一个要素变化, 而其他两个要素牢固的博弈历程. 最常见一元博弈历程就是情况和人都牢固的机机博弈. 二元博弈是指博弈中有两个要素变化的博弈历程, 包罗人机博弈、机物博弈和人物博弈. 机物博弈可以明白机械如何去对情况的动态属性举行建模并学习情况的动态变化性. 而三元博弈是指博弈中3个要素都发生变化的博弈历程, 可进一步分为有限界限的三元博弈和开放情况的三元博弈. 随着博弈中变化要素数目的增多, 博弈就愈加庞大.

博弈思想也存在于机械学习历程中, 传统的监视学习从给定的训练数据集中学习出一个函数(模型参数), 当新的数据到来时, 即凭据这个函数预测效果. 其中模型的训练历程可以明白成单个模型依照给定情况(数据集)不停通过博弈调整模型参数的历程, 近年来基于发生式模型和判别式模型博弈的反抗生成反抗网络(generative adversarial networks, GAN)也成为继深度学习之后的人工智能研究热点[15]. 谷歌DeepMind 公司设计的星际争霸游戏AI 法式AlphaStar中使用的基于种群的强化学习技术包罗了500多个模型之间的相互博弈学习.

人机反抗智能的科学问题可归纳综合为博弈学习的可建模、可盘算与可解释. 详细来说, 可建模是指博弈历程可以基于数学模型举行抽象或者表征学习, 它贯串于人机反抗的整个历程. 以AlphaGo智能法式[5]为例, 围棋博弈被建模为完全信息静态博弈, 并使用蒙特卡洛(Monte Carlo)树搜索举行博弈求解, 而Libratus智能法式中, 德州扑克博弈被建模为不完全信息动态博弈, 并使用反事实忏悔值最小化方法举行博弈求解. 可盘算是指博弈行为模型可以举行盘算与学习, 并能在此基础上举行大幅优化, 它为人机反抗计谋生成及使用提供了保障. 以Libratus法式为例, 最初版本在与人反抗时需要使用匹兹堡(Pittsburgh)超级盘算机举行盘算, 尔后革新版本Modicum使用深度有限求解方法优化其盘算性能, 实现了在普通条记本上就可以与人举行博弈[16]. 可解释是指博弈行为的盘算效果可以解释, 它为博弈历程中第三方的介入提供了足够可以明白的信息. 现在以深度学习为代表的人工智能模型可解释性较差, 已有不少研究实验从特征可视化[17]、损失界面分析[18]等差别角度对深度学习模型举行分析, 而可解释性对以认知决议为重点的人机反抗技术更为关键, 其研究为进一步的人机混淆智能提供了基础保障.

4

人机反抗模型及关键技术

和感知智能有所差别, 人机反抗通常关注更为庞大的时序决议等认知智能, 对其历程建模是一个高度庞大问题, 因此认知决议建模是整小我私家机反抗中的焦点关键环节. 已有学者从差别领域对认知决议历程举行建模, 其中Simon等[19]从治理学角度提出的决议环理论将其归纳为“情报收集-方案设计-评价方案-实施方案”, 经典指挥控制模型中的SHORE模型则称其为“激励-假设-选择-响应”[20], 著名的OODA环模型将其表现为“感知-判断-决议-行动”[21], 我国军事指挥专家胡晓峰[22]则将其归纳为“态势获取-态势明白-态势预测-决议-行动”.

本文将面向强反抗情况下的人机反抗决议流程归纳为感知、推理、决议和控制. 感知是基于大量情况数据, 对态势的判读和明白, 例如目的聚类、威胁评估等. 推理是在态势感知基础上, 对态势的深度分析、认知和预测, 包罗对意图的判断, 反抗了局的预测等. 决议和控制是在感知和推理之后的计谋决议和方式实施等. 整个决议环途经程在局部和整体上都不停举行循环迭代, 从而实现认知决议的迭代增强, 反抗能力的自主提升. 本文提出的人机反抗模型具有一定的普适性. 美军在深绿计划中提出OO-DA模型[23] 和在第三次抵消战略中提出的OPA (observe-prediction-act) [24] 可以看成是本文模型的一些特例和变种. 本文将人机反抗关键技术归纳为反抗空间表现与建模、态势评估与推理、计谋生成与优化、行动协同与控制4部门; 通过反抗态势判读明白、认知预测、计谋决议和行动实施, 局部整体不停循环迭代增强, 自主提升反抗能力. 人机反抗涉及的关键技术如图2所示.

图2 人机反抗的历程建模和关键技术

4.1 反抗空间表现与建模

构建有效的知识表现模型, 准确描画反抗空间的决议要素组成、属性特征及要素之间的交互关系, 是实现人机反抗的基础. 巨庞大、高动态、强反抗情况具有决议要素海量高维、要素影响高度耦合、决议关键信息不完全等特性, 使得反抗空间的定量表现极富挑战, 包罗: (1) 超高维度决议要素及其高度耦合的关联影响, 使得反抗空间的特征表现、提取、学习和预测十分难题; (2) 反抗双方行为与场景特征高度依赖, 反抗空间表现需要具备跨场景、可迁移的能力; (3) 对手信息缺失甚至带有高度欺骗性, 如何表征缺失及不行靠的对手信息, 依据不完全信息推理整体态势, 也是极富挑战性的问题.

有效的知识表现模型如知识图谱是研究反抗空间表现与建模的主流研究方法[25]. 同时, 基于模式识此外特征表现方法如多通道图像的反抗空间张量表现方法也被广泛接纳[5, 11]. Racaniere 等[26] 使用序列预测对情况举行建模, 并通过前向推演来革新计谋, 提高了算法的性能和鲁棒性. Huang等[27]使用自举法来权衡情况模型的可信度, 并增加对模型预测可信度低的状态的探索次数, 从而有效淘汰了模型的潜在误差. 这方面可开展的研究包罗: (1) 反抗空间要素实体-关系表现, 研究反抗空间中各种差别实体、实体属性及其交互关联关系, 构建决议要素的表现模型; (2) 反抗空间特征张量表现学习, 分析实体属性关系耦合和结构拓扑对个体及群体反抗能力的影响, 构建可解释的反抗空间的高维张量形貌; (3) 层级化聚合演算规则建模, 融合履历表现与数值盘算, 界说多因素、层级化的反抗态势和反抗能力聚合演算规则, 形成情况-我方-对手多元耦合的可盘算表征体系; (4) 基于异构信息网络的抽象通用空间表现, 基于能力演算规则, 研究反抗要素的抽象态势表现, 减轻反抗场景依赖带来的噪声和数据稀疏影响.

战。

4.2 反抗态势评估与推理

反抗态势是指反抗各方通过实力对比、调配和行动等形成的状态和趋势[28], 态势的评估与推理为后续反抗计谋生成与优化提供了依据. 面临人机反抗空间种种要素非线性的交织影响, 态势评估与推理面临着以下挑战: (1) 训练态势认知和预测模型的高水平反抗数据往往很是有限; (2) 对手信息往往是缭乱的、不完全的, 仅依据对手部门信息举行整体局势评估准确性较差; (3) 庞大反抗情况导致可用于态势评估的信息众多, 难以有效举行融合以形成多角度条理化态势.

针对挑战, 现在海内外已开展相关研究, 谷歌DeepMind公司的研究人员[5, 11] 基于自我博弈技术在围棋反抗历程中发生数据以举行估值网络的训练. Hu等[29] 借助于深度神经网络学习状态与行动之间投影, 进而实现对手信息预计. Lowe等[30] 将其他智能体的计谋预计嵌入到整体的强化学习历程中, 可以实现协作与反抗情况下其他智能体计谋的有效预计. Shen等[31, 32] 提出了深度态势匹配算法, 可以有效识别态势之间的匹配度. 此类可开展的研究包罗: (1) 高质量反抗数据的生成, 通过自主博弈或者生成式反抗网络[15] 等方法生成用于人机反抗建模与分析的高质量人机反抗数据; (2) 小样本学习, 研究在数据较少情况下通过迁移或自适应等方法实现反抗态势的直接评估; (3) 对方信息预计, 研究联合历史信息与当前反抗情况实现从底层到高层的对手行动预计、意图识别与计谋预计; (4) 态势条理化认知, 研究联合多源异构信息举行态势的多角度条理化评估与推理.

4.3 反抗政策生成与优化

反抗计谋主要涉及多智能体协同的任务计划, 解决群体与单体的行动计划问题, 其技术挑战在于: 不完全信息使得对手位置、行为、企图不能完全知道, 对手行为概率模型未知导致计谋选择守旧, 需要举行不完全信息下博弈计谋选择; 宏观决议收益反馈滞后, 使得宏观决议的效应需要经由较长时间才气体现, 导致决议行为与效益之间难以形成有效映射; 行动能力与情况深度耦合, 忽略了局部情况因素可能导致计谋分析严重偏差, 过分详细分析又导致反抗空间难以约减.

针对计谋生成和优化方面的挑战, 使用计谋游戏如星际争霸作为平台开展研究是国际上较为公认的方式[13, 14]. 相关方法包罗使用学习的方法来选择特定的宏观运营计谋[33, 34]和采矿、制作等特定微观操作[35], 使用构建顺序[36]、自动计谋生成[37] 等开展计谋优化方法. 可开展的研究包罗: (1) 宏观计谋生成, 针劈面向使命任务的全局博弈反抗问题, 构建分层任务剖析与任务协同机制, 实现庞大群体博弈反抗问题向低维空间约减; (2) 微观计谋生成, 针劈面向战斗任务的局部博弈反抗问题, 构建微型群体局部计谋自适应机制, 实现微型群体的强博弈反抗能力与情况迁移能力; (3) 计谋优化方法, 针对计谋能力需要自主提升的问题, 构建博弈计谋的评价机制和学习型计谋演进机制, 实现博弈计谋的自主进化与能力提升.

4.4 反抗行动协同与控制

计谋的执行需要多个智能体的行动协同, 各智能体在自身信息获取与开端认知的基础上, 使用资源孝敬、信息连通、要素融合、虚拟协作、智能辅助等功效, 将多个单元虚拟协同, 形成整合的群体行动协同与控制. 多智能体协同的难点包罗: 多智能体的学习目的, 个体回报和团队回报的关系, 学习历程中各智能体之间的作用和影响, 团结状态和团结行动的获取, 扩大的状态空间和行动空间导致的维数灾难等问题.

现在相关研究事情主要集中在多智能体协同与学习方面[38]. 以星际争霸游戏为例, 代表性事情包罗学习多个智能体协同举行局部战斗时的战术配合和运营制作时的行动配合[17, 35, 39]. 其中多智能体的协同控制方式包罗集中式[40]、漫衍式[41] 和混淆式[35, 39], 而学习的方规则主要基于差别的深度强化学习模型变种[42]. 针对上述难点, 行动协同与控制可开展的研究包罗: (1) 从协同历程可分为序列计谋表征、协同机制优化、异构多智能体协同以及多元协同的融合; (2) 从协同任务类型可分为同任务互助智能协同、异任务资源协调等; (3) 从理论上突破去中心化、通信中断的默契型协作方法, 任务涵盖序列化任务、多条理任务、多领域任务等, 实现场景类型全笼罩, 协同方式多元化, 为训练提供高质量协同计谋.

5

应用及挑战

人机反抗智能技术从其降生起, 就因在不停挑战人类历程中验证其能力而受到广泛的关注, 从深蓝到IBM Watson直至AlphaGo和AlphaStar, 差别情况下的人机反抗技术的突破不停成为这一领域的代表性事情, 尤其以2016年AlphaGo击败人类顶级棋手为标志, 拉开了新一轮人机大战的序幕. 人机反抗智能技术的应用领域涉及棋牌类游戏、即时计谋游戏、兵棋推演等, 在多个领域内机械智能已经到达并凌驾了该领域的人类顶级选手, 不停刷新博弈反抗记载, 显示出了新一轮人工智能技术在认知决议方面的鲜明特点.

5.1棋牌类计谋游戏反抗

棋牌类计谋游戏一直以来都被用作测试盘算机智能生长水平的参考尺度. 这些游戏由于简朴的规则和富厚的玩法而深受全球规模内的宽大喜好者的喜爱. 同样由于其规则简直定性, 加之游戏情况可控性和不完全信息等特性, 吸引了人工智能领域的连续研究. 传统棋牌类计谋游戏AI 主要基于人工编写的规则和一些启发式搜索算法, 近期基于机械学习的博弈反抗算法在棋牌类计谋游戏反抗应用中取得了突破性希望, 其中一个标志性事件就是谷歌的DeepMind公司2016年相继提出的AlphaGo系列技术[5, 11] 在围棋人机反抗中不仅取得了压倒性的优势, 而且完全脱离人类知识从零开始学习[11], 学到许多人类围棋选手无法明白的定式. 2017年来自加拿大阿尔伯塔大学等机构的研究人员提出了面向德州扑克的AI (DeepStack) [12], 该算法使用深度神经网络学习快速预计模型, 模拟人类选手的\直觉" 预计器, 能够快速向前搜索特定步数的博弈计谋. 在1对1无限注德州扑克中, DeepStack 成为了第1个击败职业选手的德州扑克AI 法式. 同年, 来自于美国卡内基梅隆大学的研究者提出了一种名为Libratus 的德州扑克AI 算法[6], 在1对1无限注德州扑克中, 同样击败了多名顶尖的职业德州扑克选手. 上述两种算法接纳的计谋都是通过约简采样和学习搜索去迫近一个近似的纳什平衡, 保证AI法式只管少犯错, 这种计谋对于1 对1无限注德州扑克博弈问题可以获得一个较好的解决方案, 可是对于多对多无限注德州扑克博弈问题, 现有的AI算法在理论上被证明无法适用, 因此需要研发新型博弈算法举行技术突破.

5.2即时计谋游戏反抗

即时计谋游戏是另一种常用于评估机械智能的平台, 和棋牌类游戏相比, 其整个反抗历程即时举行. 通常情况下, 该类游戏包罗资源收罗、基地制作、生长科技等若干因素, 游戏玩家需要平衡差别因素并控制单个或者多个被控制单元以完成反抗, 经典的实时计谋游戏包罗星际争霸以及Dota2等. 得益于国际AI赛事以及企业与学术界的友好互助, 即时计谋游戏AI取得了长足的希望, 包罗DeepMind、Facebook、OpenAI、三星、中国科学院自动化研究所、斯坦福大学(Stanford University)等越来越多的知名机构与高校到场到即时计谋游戏AI 的研发中. 在2018年星际争霸AI 国际挑战赛中, 三星、Facebook与中国科学院自动化研究所荣获前3名, AI 算法已经开端具备了战胜业余妙手的水平. 相关的AI算法包罗基于多智能体强化学习实现被控单元间微操的控制, 基于深度神经网络模型举行宏观战斗决议的制定, 以及基于状态机模型实现反抗历程的演化等. 相比于星际争霸, Dota2的每个玩家仅需要控制一个单元, 并协助其他4 位玩家举行反抗. 2018年OpenAI 开发的OpenAI-Five智能法式基于深度强化学习完成反抗计谋生成, 击败了由5名人类妙手(前职业选手) 组成的队伍(比分为2 : 1). 2019 年, DeepMind团队继续在即时计谋AI 中不停取得突破, 设计的星际争霸AI 法式AlphaStar以10 : 1击败了星际争霸游戏人类专业选手, 最新提出的基于种群的强化学习算法在《雷神之锤3: 战场》游戏中的夺旗任务中团战胜率凌驾人类玩家[43]. 只管深度强化学习技术在多个游戏中具有不俗的体现, 如何提高模型的稳定性以及性能以击败顶级人类玩家、如何实现模型的可解释以支撑学习的可信任建模仍需要AI 算法的不停突破.

5.3军事模拟及推演反抗

军事模拟及推演由于其战略意义, 恒久以来受到国家层面的关注, 其反抗演练具有重要实用价值. 2016 年美国辛辛那提大学(University of Cincinnati)构建了空战智能博弈人机反抗系统(ALPHA), 击败了美国空军顶级航行员李上校, 拉开了无人装备反抗有人装备的序幕. 空战ALPHA法式主要接纳了遗传模糊树的自主进化决议逻辑, 空战决议速度比人类快了250倍. 兵棋推演是另一种使用兵棋举行模拟战争运动的平台, 军事指挥员使用代表情况和军事气力的棋盘和棋子, 依据军事规则和概率论原理, 模拟战争反抗, 对作战方案举行历程推演和评估优化. 2017年在首届全国兵棋推演大赛上, 中国科学院自动化研究所研制的CASIA 先知1.0系统, 击败了军队四强和地方四强8 名冠军级选手, 获得了7 : 1的胜利, 在反抗中接纳了面向作战计划的使命任务分析、地形分析、军力对比、对手行为预计、作战部署算法以及面向作战治理的态势认知与预测算法、作战决议和作战计划自动生成算法, 实现了博弈反抗与迁移能力的同步提升. 随着博弈反抗规模的扩大, 反抗空间出现指数级增长, 多兵种协同与情况耦合的问题凸显, 战争系统具有强非线性和高动态等庞大特性, 剖析盘算和随机迫近最佳计谋都存在庞大挑战; 人机反抗需要生长对手行为意识建模和协同演化博弈计谋, 以不停提升反抗能力.

以上我们只是简朴枚举了3类人机反抗的相关应用, 事实上, 博弈贯串于人类社会的方方面面[8, 44], 博弈和反抗在政治、经济、文化、军事等多方面都发挥着重要的作用, 人机反抗技术也将在信息获取、传输、分析、明白、推理、决议等环节发挥作用, 推动感知和认知智能的生长.

6

总结与展望

本文着眼于智能化时代的智能需求, 以使用人机反抗形成迫近人类智能为牵引, 针对人机反抗智能的关键技术举行探讨, 论述了人机反抗智能技术研究框架下的空间表现与建模、态势评估与推理、计谋生成与优化、行动协同与控制相关观点与模型, 以及各模块的重点研究内容与难点, 同时就相关反抗应用领域现状、典型算法、存在的主要问题举行了先容. 从人机反抗技术的生长可以看到, 无论是人机反抗的基础理论, 还是主要环节的关键技术, 依然存在诸多关键难题, 通用的反抗空间表现与建模、精准的态势评估与推理、完善的计谋生成与优化, 以及对手心理建模等方法与技术是迫切需要攻克的难题.

总之, 人工智能尤其是机械学习、类脑盘算等领域的生长给人机反抗智能及自主进化带来了契机, 迫切需要深化人机反抗问题本质的明白与剖析, 科学合理地建设机械智能与人类智能的高效协作机制, 取得人机反抗理论、技术与应用的重大突破, 并在人类社会的经济、政治、金融及生活等多领域推进智能化历程.

* 参考文献(略),详见全文PDF.

---全文完---