人工智能中不可避免的自我改善问题


今天的人工智能系统可能看起来像是能够在各种任务中击败人类同行的智力强者 。然而,事实上,当今最先进的AI代理商的智力能力是狭隘和有限的 。以AlphaGo为例 。虽然它可能是棋盘游戏Go的世界冠军,但这基本上是系统擅长的唯一任务 。
当然,还有AlphaZero 。该算法掌握了许多不同的游戏,从和国际象棋到Go 。因此,它比许多当代AI代理商更有能力和动态;但是,AlphaZero无法轻松将其智能应用于任何问题 。它不能像人类一样从一个任务移动到另一个任务 。
所有其他当前的人工智能系统都可以说同样的事情 - 他们的认知能力是有限的,并没有超出他们创建的具体任务 。这就是为什么人工智能(AGI)是许多研究人员的长期目标的原因 。
AGI系统被广泛认为是人工智能研究的“圣杯”,是具有广泛解决问题能力的人工智能代理,使他们能够应对在设计阶段未考虑的挑战 。与专注于一项特定技能的传统AI系统不同,AGI系统能够有效地解决他们遇到的任何问题,完成各种任务 。
如果技术得以实现,它将以无数种方式使人类受益 。斯坦福大学(Stanford University)经济学家马歇尔?伯克(Marshall Burke)预测,AGI系统最终将能够建立大规模的协调机制,以帮助缓解(甚至消除)我们最紧迫的一些问题,如饥饿和贫困 。然而,在社会能够从这些AGI系统中获益之前,DeepMind的AGI安全研究员Ramana Kumar指出,AI设计师最终需要解决自我改善问题 。
自我改善符合AGI
在当前的AI系统中已经存在早期的自我改进形式 。“在正常的机器学习过程中会发生一种自我改善,”库马尔解释说 。“即,该系统在其培训过程中能够很好地执行任务或一系列任务 。”
然而,Kumar断言他会将这种形式的机器学习与真正的自我改进区分开来,因为系统无法从根本上改变自己的设计,成为新的东西 。为了实现显着改进 - 包含新技能,工具或创建更高级AI代理的改进 - 当前的AI系统需要人为他们提供新代码和新的训练算法等 。
然而,理论上可以创建一个能够真正自我改进的AI系统,Kumar说这种自我改进的机器是AGI更合理的途径之一 。
研究人员认为,自我改进的机器最终可能导致AGI,因为这个过程被称为“递归自我改进” 。基本思想是,随着人工智能系统继续使用递归自我改进使自己变得更聪明,它会越来越好地使自己变得更聪明 。这将迅速导致其智力的指数增长,并因此最终可能导致AGI 。
库马尔说,这种情况完全合理,并解释说,“为了实现这一目标,我们需要一些几乎没有争议的假设:理论上存在这种高度称职的代理人,并且可以通过一系列局部改进找到它们 。”在这种程度上,递归自我提升是一个概念,它是我们如何从今天的中等智能机器到超智能AGI的一些理论的核心 。然而,库马尔澄清说,这不是AI超级智能的唯一潜在途径 。
人类可以通过各种方法发现如何建立高度胜任的AGI系统 。这可能是“通过扩展现有的机器学习方法,例如,使用更快的硬件 。或者可以通过在表征学习,转移学习,基于模型的强化学习或其他方向上进行渐进的研究进展来实现 。例如,我们可能在脑部扫描和仿真方面取得足够的进展,以复制和加速特定人类的智能,“Kumar解释道 。
然而,他也很快澄清递归自我改善是AGI的先天特征 。“即使重复自我提高是没有必要制定游刃有余的人工坐席放在首位,明确自我完善将仍然有可能对那些代理商,”库马尔说 。
因此,虽然研究人员可能会发现AGI的途径不涉及递归的自我改善,但它仍然是需要认真研究的人工智能的属性 。
自我改善AI的安全性
当系统开始自我修改时,我们必须能够相信所有修改都是安全的 。这意味着我们需要了解所有可能的修改 。但是,如果没有人能够提前预测修改是什么,我们怎样才能确保修改是安全的?
库马尔指出,这个问题有两个明显的解决方案 。第一种选择是限制系统生产其他AI代理的能力 。然而,正如库马尔简洁地总结的那样,“我们不想通过禁止自我改善来解决安全的自我改善问题!”
因此,第二种选择是仅允许被认为足够安全的有限形式的自我改进,例如软件更新或处理器和内存升级 。然而,库马尔解释说,审查这些形式的自我改善是安全和不安全的仍然非常复杂 。事实上,他说,防止一种特定类型的修改的构建是如此复杂,以至于“需要深入了解自我改进所涉及的内容,这可能足以解决完全安全的自我改善问题” 。
值得注意的是,即使新的进步只允许有限形式的自我改善,库马尔也表示这不是一条可以采取的道路,因为它回避了我们想要解决的自我改善的核心问题 。“我们希望建立一个可以建立另一个AI代理的代理,其代理能力如此之大,以至于我们无法提前直接推断其安全性......我们希望委托一些关于安全的理由,并且能够相信父母这种推理是否正确,“他断言 。
最终,这是一个极其复杂的问题,仍处于最新生阶段 。因此,目前的大部分工作都集中在测试各种技术解决方案,并看到可以取得进展的地方 。“对于这些问题,仍然存在很多概念上的混淆,因此一些最有用的工作涉及在各种环境中尝试不同的概念,并观察结果是否连贯,”Kumar解释说 。
无论最终解决方案是什么,Kumar断言成功克服自我改善的问题取决于AI研究人员密切合作 。“[测试这个问题的解决方案]的关键是明确假设,并且为了向其他人解释,明确与我们最终关心的现实世界安全AI问题的联系 。”
在涉及人工智能时,经常会出现关于什么构成“安全”和“不安全”行为的争论 。作为拉玛纳库马尔,在AGI安全研究员DeepMind,笔记,术语是主观的,“只能相对于AI系统的使用者和受益者的值来定义 。”
幸运的是,在面对与创建安全AI代理相关的技术问题时,这些问题大多可以回避,因为这些问题与识别正确或道德适当的问题无关 。相反,从技术角度来看,术语“安全”最好定义为一种AI代理,它始终采取导致预期结果的行动,而不管这些预期结果如何 。
在这方面,Kumar解释说,在创建一个负责改进自身的AI代理时,“构建安全代理的技术问题在很大程度上独立于'安全'意味着什么,因为问题的很大一部分是如何建立一个能够可靠地做某事的代理人,无论那是什么东西,以这种方式继续工作,即使所考虑的代理人越来越有能力 。“
简而言之,制作一个“安全”的AI代理商不应该与制定“道德”AI代理商混为一谈 。各自的条款都在讨论不同的事情 。
一般而言,回避道德的安全定义使得AI技术工作变得更加容易它允许研究在道德问题的辩论演变的同时推进 。例如,优步的自动驾驶汽车已经上街,尽管我们尚未就是否应该保护驾驶员或行人的框架达成一致 。
然而,当涉及到创建一个能够自我改进的强大而安全的AI系统时,技术工作变得更加困难,并且该领域的研究仍处于最新生阶段 。这主要是因为我们不只处理一个AI代理;我们正在处理几代未来的自我改善代理人 。
库马尔澄清说,“当一个AI代理人自我提升时,可以将情况视为涉及两个代理人:'种子'或'父母'代理人和父母自我修改的'子代理人'......及其总数对世界的影响将包括其后代所采取的行动的影响 。“因此,为了知道我们已经建立了一个安全的AI代理人,我们需要了解可能来自第一个代理人的所有可能的子代理人 。
并且验证所有未来AI代理商的安全性归结为解决称为“自我引用推理”的问题 。
理解自我指涉问题
通过根据其两个主要组成部分定义术语,最容易理解自引用推理的问题:自引用和推理 。
自我引用:指某人(或某些东西,如计算机程序或书籍)引用自身的实例 。任何提到自己的人或事物都被称为“自我指涉” 。
推理:在人工智能系统中,推理是一个过程,通过这个过程,代理人建立关于世界的“信念”,例如特定行为是否安全或特定推理系统是否合理 。“良好的信念”是基于现有证据的合理或可信的信念 。使用术语“信念”而不是“知识”,因为代理人认为的事物可能不是事实真实的并且可能随着时间而改变 。
因此,与AI相关,术语“自引用推理”指的是使用推理过程来建立关于同一推理过程的信念的代理 。因此,当涉及到自我改进时,“自引用问题”如下:代理人正在使用自己的推理系统来确定其推理系统的未来版本是否安全 。
为了以另一种方式解释问题,Kumar指出,如果AI代理人创建了一个儿童代理来帮助它实现目标,那么在使用它之前,它会想要建立一些关于孩子安全的信念 。这必然涉及通过辩论孩子的推理过程是好的来证明对孩子的信念 。然而,孩子的推理过程可能与原始代理人的推理过程相似甚至延伸 。最终,AI系统无法使用自己的推理来确定其推理是否良好 。
从技术角度来看,问题归结为Godel的第二个不完备性定理,Kumar解释说,“这表明没有足够强大的证明系统可以证明其自身的一致性,因此代理人很难证明他们的继承者已被证明是安全的行为是事实上,安全 。“
调查解决方案
迄今为止,已经提出了针对该问题的若干部分解决方案;但是,我们目前的软件没有足够的自我参照推理支持,使解决方案易于实施和研究 。因此,为了提高我们对实施自我推理推理的挑战的理解,Kumar和他的团队旨在使用已经提出的一些部分解决方案来实现AI代理的玩具模型 。
具体而言,他们研究了在具体环境(特别是Botworld)中实施自我参考问题的一种特定方法的可行性,其中可以检查所有细节 。选择的方法是模型多态性 。模型多态性不需要证明操作对所有未来用例都是安全的,而是仅需要对从证明系统中抽象出来的任意数量的步骤(或后续操作)证明是安全的 。
Kumar指出,总体目标最终是“了解理论与工作实现之间的差距,并加深对模型多态性方法的理解 。”这可以通过在HOL中创建一个证明定理来实现(更高阶描述情况的逻辑)定理证明者 。
为了简化这一点,实质上,定理证明是计算机程序,它们有助于数学正确性证明的发展 。这些数学正确性证明是该领域中最高的安全标准,表明计算机系统总是为任何给定的输入产生正确的输出(或响应) 。定理证明通过使用形式化的数学方法来证明或反驳系统底层控制算法的“正确性”,从而创建了这样的证明 。特别是HOL定理证明是一系列交互式定理证明系统,有助于高阶逻辑理论的构建 。高阶逻辑支持对函数,集合,集合等的量化,比其他逻辑更具表现力,允许用户以高抽象级别编写正式语句 。
回想起来,库马尔说,试图在HOL定理证明器中证明关于自我反思的多个步骤的定理是一项艰巨的任务 。尽管如此,他断言,在解决自我指涉问题时,团队向前迈进了几步,并指出他们建立了“许多必要的基础设施,并更好地了解了如何证明它以及它需要什么 。将基于模型多态性构建原型代理 。“
Kumar补充说,MIRI(机器智能研究所)的逻辑电感器也可以提供令人满意的正式自引用推理版本,从而为自引用问题提供解决方案 。
【人工智能中不可避免的自我改善问题】

    推荐阅读