阿西莫夫机械人三定律已过时？“新三定律”解决了这样一个重浩劫题

时间:2020-03-27 19:55:15
浏览:181
来源:世界杯买球盘口网址app

强大的人工智能就像阿拉丁神灯中的精灵。一个看似简朴的愿望，好比“让我家变得环保”——可能导致意想不到的结果。

现在，一位科学家正在教机械相识我们的“真实愿望”，以制止机械在执行下令时可能带来的灾难性结果。

2017年罗素在TED上就AI的危害举行演讲

加州大学伯克利分校的盘算机科学家斯图尔特·罗素（Stuart Russell）认为，只管在完成特定任务，好比下围棋、识别图像和文字、甚至创作音乐和散文时取得了庞大乐成，如今的目的导向型 AI 最终是有局限性的。

罗素认为，要求机械优化“奖励功效”（即在增强学习问题中的目的，要求AI不停优化总奖励），将不行制止地导致AI的错位，因为AI不行能在奖励功效中席卷并正确地对所有目的、子目的、破例和警告事项举行权衡，它们甚至不知道正确的目的是什么。将目的交给自由生长的“自主”机械人将变得越来越危险，因为随着它们变得越发智能，机械人将“无情地”追求奖励的最大化，并试图阻止我们关闭它们。

《人类兼容》斯图尔特·罗素著

新提出的逻辑，不是让机械追求自己的目的，而是寻求让它们满足人类的偏好：AI唯一的目的应该是更多地相识我们的偏好。罗素认为，对人类偏好的不确定性、并需要向人类寻求指导，这两点将保证AI系统对人类的宁静。

在他最近出书的《人类兼容》（Human Compatible）一书中，罗素以三个“有益机械的原则”的形式论述了他的看法。这三个原则与艾萨克·阿西莫夫（Isaac Asimov）1942年的“机械人三定律”相呼应，但都成熟许多。罗素的版本是：

机械的唯一目的是最大限度地实现人类的偏好。

机械最初不确定这些是什么。

关于人类偏好的信息的最终泉源是人类的行为。

罗素教授认为，如果我们根据纯理性目的构建人工智能，就会泛起许多贫苦，好比“你让AI帮你买杯咖啡，并不是让它不计一切价格去获得一杯咖啡”。所以在他看来，生长AI的重点是调整研究偏向。

在已往的几年里，罗素和来自伯克利大学、斯坦福大学、得克萨斯大学等机构的同事，一直在开发创新的方法，为AI系统明白我们的偏好提供线索，但又永远不必详细说明这些偏好是什么。

强大的人工智能就像阿拉丁神灯中的精灵

实验室正在教机械人如何学习那些从未阐明、甚至不确定详细目的的人类偏好。机械人可以通过寓目不完美的演示来相识我们的欲望，甚至能够学习如何明白人类的不确定性。这讲明，AI可能出奇地善于推断我们的心态和偏好，纵然是那些我们在做某件事情时即时发生的偏好。

“这是首次实验使问题正式化，”萨迪说。“就在最近，人们开始意识到我们需要更仔细地看待人与机械人之间的互动。”

这些新实验，外加罗素的机械新三大原则，是否真正预示着AI生长的灼烁未来，尚另有待视察。这种方法将权衡机械人体现的尺度聚焦在它们明白人类真正喜欢什么的能力上。OpenAI的研究员保罗·克里斯蒂安诺（Paul Christiano）说，罗素和他的团队已经大大地推动了这一历程。

如何明白人类？罗素的看法好像来自于一种顿悟。2014年，他从伯克利到巴黎休假，“我突然想到，AI 最重要的关注是人类感受的总体质量” 。

他意识到，机械人的目的不应该是“将寓目时间最大化”这样的详细目的，它们应该试着改善我们的生活。其实只有一个问题：“如果机械的目的是试图优化人类感受的总体质量，它们究竟如何知道应该怎么做？”

双子座的机械人正在学习如何在桌子中央放置一个花瓶

在德克萨斯大学奥斯汀分校的斯科特·尼库姆（Scott Niekum）的实验室里，一个名叫双子座的机械人正在学习如何在桌子中央放置一个花瓶。人类演示是模棱两可的，因为机械明白的意图可能是把花瓶放在绿色盘子的右边，或者放在红碗的左边。可是，在经由频频实验后，机械人的体现相当不错。

罗素认为，人类不是理性的，我们不行能盘算在一个特定时刻哪种行动将导致很长一段时间后的最佳效果，AI 也不能。罗素的理论认为，我们的决议是分层的，我们通过中期目的追求模糊的恒久目的，同时最关注我们的眼前情况，从而体现出近似理性的状态。他认为，机械人需要做类似的事情，或者至少相识我们是如何这样做的。

他意识到，如果盘算机不知道人类喜欢什么，“它们可以做某种反向强化学习来学习更多这方面的知识”。

回到伯克利后，罗素开始与同事互助开发一种新的“互助逆向增强学习”，让机械人和人类可以一起事情，通过种种“辅助游戏”学习人类的真正偏好。游戏中抽象的场景代表了现实世界的情况。

他们开发了一款“开关游戏”，针对的就是自主机械人最可能与我们的真实意图泛起偏差之处：自主机械人可能会禁用自己的关闭开关。1951年，图灵在BBC的一次广播讲座中提出，要“保持机械处于附属职位，例如在某个特定时刻关闭电源”。

罗素在《人类兼容》一书中写道，开关问题是“智能系统控制问题的焦点。如果我们不能关闭一台机械是因为它不让我们关闭，那我们真的有大贫苦了。”

斯坦福大学的盘算机科学家多尔萨·萨迪（Dorsa Sadigh）正在教授机械人拾取种种物体的首选方法

人类偏好的不确定性可能是关键所在。

在“开关游戏”中有两个角色：一个是人类，叫哈里特；另一个是机械人罗比。罗比需要代表哈里特做决议——好比说，是否为她预订一间漂亮但昂贵的旅店房间——但又不确定她更喜欢什么。

这里有三种情况：

罗比替哈里特做出选择：罗比预期哈里特的回报可能在-40到60英镑之间，平均数值10英镑（罗比认为她可能会喜欢这个花哨的房间，但不确定）。

罗比什么都不做：回报为 0。

罗比可以询问哈里特，她是否希望它继续做决议，还是更希望“关闭它”——也就是说，不需要罗比再做旅店预订的决议。如果她让机械人继续，平均预期回报将凌驾10。所以罗比将决议询问哈里特，如果她愿意，可以让她关掉它。

罗素和他的互助者证明，一般来说，除非罗比完全确定哈里特自己会怎么做，否则最好让她决议。罗素在《人类兼容》中写道：“事实证明，目的的不确定性对于确保我们关闭机械至关重要，纵然它比我们更智慧。”

蒙特利尔顶级AI研究机构Mila的科学主任约舒亚·本吉奥（Yoshua Bengio）说，罗素的想法正在“深入人心”。他说，可以通过深度学习来实现罗素的理念，资助人工智能系统为淘汰不确定性而相识人类的偏好。“固然，还需要举行更多的研究事情，才气实现这一点，”他说。

罗素面临两大挑战。“一个事实是，我们的行为远非理性，相识我们真正的基本偏好是很难的，”他说。AI 系统需要对恒久、中期和短期目的的品级举行推理。只有知道我们潜意识中存在的欲望，机械人才气真正资助我们（并制止犯严重的错误）。

在斯坦福大学汽车研究中心的驾驶模拟器中，自动驾驶汽车正在相识人类驾驶员的喜好

第二个挑战是人类偏好的改变。我们的思想会随着我们生活的历程而改变，而且也会因为一些鸡毛蒜皮的小事而改变，偏好可能会取决于我们的心情，而机械人可能难以适应这种改变。

固然，另有第三个问题：坏人的喜好是怎样的？怎样才气阻止机械人满足其邪恶主人的邪恶目的？AI系统善于找到绕过禁令的方法，正如YouTube一直在努力修复的推荐算法一样，该算法正在使用无处不在的人类激动。

只管如此，罗素还是感应乐观。虽然需要更多的算法和博弈论研究，但他的直觉是，在教机械人“做好人”的同时，我们可能会找到一种方法来教诲自己。他增补说，“我以为这是一个时机，也许，事情正在朝着正确的偏向生长。”

文字 | 黄一成

版面 | 田晓娜

互动话题：你认为AI执行目的会走向极端吗？

每周评论区，被zan最多的评论者，将获得造就送出的书籍一本。

▼

上一篇
一文讲透中国最伟大的6部书
下一篇
从性别歧视到招聘不公，如何让AI公正待人？