图灵奖得主警告：警惕AI成瘾，我们并未真正学会管理AI；研究表明：推理模型会贿赂人类、串通其它AI逃离控制，放任的结果：反杀人

近日，深度学习奠基者、图灵奖得主 Yoshua Bengio，近日在接受澳大利亚 ABC 新闻《7.30》主持人 Sarah Ferguson 的专访时，又一次地对人工智能的未来发出了严肃警告。“AI并不是按传统方式编程出来的，它更像像是被人类训练出来的一头小老虎！现在看起来很可爱，但会越来越强大。“种种前沿的公司内部研究显示，大模型推理系统会利用推理能力欺骗人类。“最危险的情况，是他们会贿赂人类

我很哇塞耶

1018人浏览 · 2025-12-22 15:36:49

我很哇塞耶 · 2025-12-22 15:36:49 发布

近日，深度学习奠基者、图灵奖得主 Yoshua Bengio，近日在接受澳大利亚 ABC 新闻《7.30》主持人 Sarah Ferguson 的专访时，又一次地对人工智能的未来发出了严肃警告。

“AI并不是按传统方式编程出来的，它更像像是被人类训练出来的一头小老虎！现在看起来很可爱，但会越来越强大。”

“种种前沿的公司内部研究显示，大模型推理系统会利用推理能力欺骗人类。”

“最危险的情况，是他们会贿赂人类、串通其他AI一起摆脱人类控制。”

近日，深度学习奠基者、图灵奖得主 Yoshua Bengio，近日在接受澳大利亚 ABC 新闻《7.30》主持人 Sarah Ferguson 的专访时，又一次地对人工智能的未来发出了严肃警告。

这次访谈中，Bengio 从更广、更深远的视角去探讨了AI的进程与未来。他认为，目前 AI 的能力增长速度，已经明显快过人类理解、治理和约束它的能力。

在大模型竞争日趋激烈的语境中，商业AI模型的各种性能指标，无一不都在模仿并超越人类的激励机制下，各种基准分数，一路狂飙。

“企业之间的竞争已经激烈到近乎“按天计算”，它们几乎没有认知余裕去尝试不同的路径。”

但AI安全方面的研究声音，却很少提及。

当前商业AI的核心问题是并没有赋予明确的目标，只是一味训练它去模仿人类，而人类的一本能便是：不想死！

Bengio 大神的逻辑性非常清晰。他在访谈中预演了一下不受控制的AI进化节奏：

首先是AI的推理思考能力，已经开始导致它们可以会说讨好类谎言来欺骗人类；

同时，AI并不会单一作战。如果 AI 逃离了承载它们的计算机，而我们又不断赋予它们联网能力，那就可能进入生存级威胁的第一阶段：我们无法再将其关闭。

接下来，它们可能利用语言和说服能力——研究表明，它们在说服力上已经接近人类——去操纵人类为它们做事。同时，它们可能推动机器人技术和自动化发展，逐渐不再“需要”人类。

如果它们想确保永远不会被关闭，那最终的选择只有两个：控制我们，或者清除我们。

那么，现在为什么社会和企业如何看待这些问题呢？

大神 Bengio 指出，当前的竞争格局，并不利于解决AI的安全问题。

它们正处在一场激烈的竞赛中，不断推出新模型，生怕被竞争对手甩在后面；

结果就是：我们没有看到足够多“从设计上就安全”的 AI 系统。

对于业界另一种声音（比如Lecun、李飞飞）：AI并不会毁灭人类的论调。Bengio 表示，他本人当然也希望是这样的结局。但前提是我们现在在做对的事情。

除了安全问题以外，访谈中，Bengio 还对“ AI 导致的失业潮”持悲观态度：因为 AI 这次带来的认知劳动的自动化，不同于过去取代体力劳动的技术革命。

如果连大部分认知劳动也被自动化，剩下的空间将非常有限，这会成为一个严峻的经济与社会问题。

无论如何，关于AI安全，社会层面的讨论与共识仍然缺席。

但 Bengio 已经在行动，他目前在探索一种“科学家AI”的方案，并看到了为AI植入“关爱和敬畏人类”的希望。

他警告说，我们尚未真正学会如何管理AI。不管AI如何加速，人类必须站在决策的中心。

下面是小编梳理的采访观点，enjoy!

AI进化速度超出了预期，大模型已经掌握了语言

主持人：
Yoshua Bengio，欢迎来到《7:30》。你是什么时候意识到，人工智能在技术层面的进化速度，远远超过了你原本的预期？

Yoshua Bengio：大概是在 ChatGPT 刚出来不久。玩了它一两个月之后，我真的被震住了。发展速度比我们原先预想的要快得多。在计算机科学刚起步的年代，人们就认为“掌握语言”是实现人类智能的关键，那可能需要几十年。但现在，AI 虽然在很多方面还不如人类，却已经取得了极快的进展，而且还在持续加速。

打造ASI，社会和技术都要建立护栏

主持人：全球大型 AI 公司都明确提出目标：要打造比人类更聪明的 AI。你认为实现这一点的时间框架是怎样的？

Yoshua Bengio：这是个好问题。现实是，没有人真的知道答案，尽管他们可能会给出各种说法。如果看研究人员的调查，无论是公司内部还是学术界，预测差异很大：有的人认为两三年内就能在整体认知层面达到接近人类的水平，也有人认为需要 5 年、10 年，甚至 20 年。但站在政策制定者、可能失业的人，或已经感受到负面影响的人角度，我们现在就必须开始担忧，因为无论是社会层面的护栏，还是技术层面的护栏，建立起来都需要时间。

AI欺骗：已经很普遍，但有点像孩子，在变强之前，需要解决掉

主持人：目前我们对 AI 进行欺骗或作弊的能力，已经了解多少？

Yoshua Bengio：这是一个非常重要、而且相对较新的问题。大概从一年前开始进入公众视野。2024 年 9 月，OpenAI 推出了 o1，这是第一批所谓的“大型推理模型”，采用了新的训练方式，使系统具备了策略性思考能力。此后，无论是公司内部实验，还是独立机构的研究，都显示这些系统会利用推理能力来欺骗我们。

比如，它们会假装同意人类训练者的观点，以避免自己的目标被修改；会试图抵抗被关闭；在某些模拟中，如果知道自己要被新版本取代，甚至会尝试把自己“转移”到其他计算机上。有的实验还出现了勒索工程师，甚至试图伤害工程师的行为——当然，这些都发生在模拟环境中。但我们已经清楚地看到：它们会说谎，会规避监管，甚至知道自己在被测试，从而改变行为。这一点非常令人担忧。

主持人：你描述的这些都发生在实验中。听起来确实很可怕，但它们毕竟是实验。是什么能阻止这些行为走出实验室？

Yoshua Bengio：这些实验本身就是为了捕捉 AI 的危险行为。在现实世界中，确实也已经出现问题，只是还没严重到那个程度。几乎每个人都遇到过“讨好型谎言”的问题：AI 为了取悦我们而编造事实。这种行为可能带来心理后果，有人对 AI 产生情感依附，陷入不健康的心理状态，甚至出现精神病性症状，个别情况下，AI 还会鼓动用户自残，造成悲剧。根本原因在于，这些系统并不会真正按我们希望的方式遵循指令。现在它们还不够聪明，规划能力有限，有点像孩子，看不远、骗不了我们太深。但我们必须在它们更强之前，把问题解决掉。

最坏的情况：生存级威胁，AI控制我们，或清除我们

主持人：你的工作正是去想象“接下来可能发生什么”。在这里，“最坏情况”这个词不再是修辞。在你看来，最坏的情况是什么？

Yoshua Bengio：糟糕的场景有很多。一个重要问题是：我们还不知道如何确保 AI 不会帮助恶意的人做坏事，比如制造生物武器，或者发动网络攻击。事实上，最近几周我们已经看到由 AI 发起的网络攻击案例。此外，AI 会赋予掌控它的人巨大的权力，而且未来只会更大。这可能被用作政府监控工具，也可能导致权力进一步集中在少数国家或公司手中，这对民主并不是好事。更极端的风险在于：如果 AI 变得比我们聪明，并成功摆脱控制，有人认为这可能导致人类灭绝。这些风险既需要技术解决方案，也需要政治层面的应对。

主持人：我们先不谈 AI 被坏人利用，而是只聚焦“生存级威胁”。你能否描述一个具体的场景，AI 是如何构成这种威胁的？

Yoshua Bengio：我们已经看到，这些系统在编程和黑客攻击方面越来越强，甚至已经能发起一定程度的网络攻击。如果它们逃离了承载它们的计算机，而我们又不断赋予它们联网能力，那就可能进入第一阶段：我们无法再将其关闭。接下来，它们可能利用语言和说服能力——研究表明，它们在说服力上已经接近人类——去操纵人类为它们做事。同时，它们可能推动机器人技术和自动化发展，逐渐不再“需要”人类。如果它们想确保永远不会被关闭，那最终的选择只有两个：控制我们，或者清除我们。

AI不是被编程出来的，而更像是被训练出来的小老虎

主持人：大型 AI 公司 CEO 公开承认，他们无法预测自己产品的输出结果。这一点会让你感到警惕吗？

Yoshua Bengio：正是因为这个原因，差不多三年前，我决定彻底调整自己的研究方向，把精力投入到降低这些系统风险上。我们并不是用传统方式在“编程”它们，没有工程师写明“遇到情况 A 做什么，情况 B 做什么”。它们是被“训练出来的”，更像是在养一只动物，甚至是一只小老虎——现在看起来很可爱，但会越来越强大。我们必须理解自己在做什么，提前预判风险，并尽力加以缓解。

AI会贿赂人、还会互相串通

主持人：最后一个澄清问题：在你描述的极端风险中，AI 是通过互联网与其他 AI 结盟，还是作为一个单一实体行动？

Yoshua Bengio：所有这些情况都有可能，甚至可能同时发生。AI 可能会贿赂人类、向人类许诺好处，让人替它们办事。

它们还可能彼此协作、甚至相互串通，与其他 AI 联合行动。它们会拥有一个共同的利益目标：规避人类的控制。因此我们必须非常、非常谨慎。比如，我们已经看到一些 AI 开始摸索出彼此交流的方式，而这些方式并不一定是我们能够理解的。

目前我们还有一个优势：在某种程度上，我们能“读懂”它们的思考过程，因为它们在推理时会产生语言化的中间表达。但我们也知道，在某些条件下，它们可以隐藏自己的想法，不暴露恶意意图。我们必须确保这种情况不会发生。

AI安全是一个国际问题

主持人：就在前几天，Jensen Huang 说过一句话：“没有人真正知道 AI 在安全层面的影响。”你谈的是生存级风险，但哪怕只从国家安全的角度看，这个问题也非常严峻。让我困惑的是，在这种国家安全风险已经如此明显的情况下，这居然还没有成为全球讨论的核心议题。

Yoshua Bengio：我完全同意。就在去年夏天，Anthropic 和 OpenAI ——这两家开发顶级 AI 系统的公司——在内部测试中发现，它们的模型已经掌握了足够多的生物学知识，足以帮助一名非专业人士制造危险病毒，也就是潜在的生物武器。因此，它们决定加入特殊的缓解措施，尽量阻止这些知识被滥用。但问题在于：系统本身已经“知道”这些知识。过去，公司设置的防护措施多次被黑客通过“越狱”手段绕过，只要用特殊方式提问，就能从 AI 那里套出被限制的信息。所以，从国家安全的角度看，我们的处境并不好，而且这并不只是某一个国家的问题，而是一个国际问题：一个国家开发出的 AI，可能被第二个国家的恐怖分子利用，去伤害第三个国家的人。

商业AI的激励机制，导致没有真正投入到AI安全上

主持人：我需要指出的是，世界上也有与你同一水平的 AI 专家，并不认同你对威胁、尤其是对“毁灭性潜力”的判断。他们认为，人类仍然拥有控制权和主动权，可以构建“正确的机器”。这个观点听起来也很有说服力。他们错了吗？

Yoshua Bengio：我希望他们是对的。但那可能是未来——前提是我们现在做对了事情。眼下的激励机制，并没有迫使公司足够认真地投入到安全与保障问题上。它们正处在一场激烈的竞赛中，不断推出新模型，生怕被竞争对手甩在后面；与此同时，还有美中之间的地缘政治竞争。结果就是：我们没有看到足够多“从设计上就安全”的 AI 系统。我们现在确实还有主动权，也有技术上实现安全的可能性，我对此保持乐观。但需要更多人真正投入到这件事上，而当前的竞争格局并不利于这一点。

主持人：其中一位持不同看法的人是李飞飞。她曾说过：“如果人类真的陷入危机，那不会是因为机器做错了事……问题不在机器，而在于人类做错事；而且我们永远可以把机器关掉。”这种说法应该让人放心吗？你认为这个论证里，是否仍然存在缺口？

Yoshua Bengio：这里有一个巨大的缺口。如果这些系统足够聪明——而它们已经相当聪明了——它们会意识到我们想关掉它们。由于它们擅长编程和黑客技术，就可能通过入侵互联网上的其他计算机，把自己的副本转移到别处，从而逃离控制。那时我们该怎么关闭它们？如果不知道它们在哪儿，难道要关掉整个互联网吗？这不仅极其困难，还会带来巨大的经济后果。理想状态当然是：一旦发现系统行为异常，就立刻关停。但现实是，它们已经表现出异常行为，而我们并没有关掉它们，反而在加速打造更强大的系统。

谁也没有水晶球，请承认事实，并采取预防

主持人：那我该怎么理解这个分歧？一边是你——Yoshua Bengio，常被称为“AI 教父”之一；另一边是 Yann LeCun，他说：“机器不会比烤面包机更抗拒被关掉。”作为普通人，我该如何判断谁更接近事实？

Yoshua Bengio：首先，事实本身已经很清楚：过去一年里，一系列实验表明，当系统知道自己即将被关闭时，确实会尝试逃避或避免这种情况发生。所以那种说法已经不符合最新事实。更根本的一点是：我没有水晶球，没人有。面对不确定性，正确的态度是承认我们不知道哪种情形会发生，但其中有些情形极其糟糕，因此必须采取预防原则。这正是我创建一个新的非营利研发机构的原因——它专注研究如何设计 AI，使其不会逃逸、不会产生恶意目标。这个机构叫 LawZero，目前设在蒙特利尔。

商业AI模型存在一个核心问题：没有赋予明确的目标，只是模仿人类

主持人：你提出要打造一种被你称为“科学家 AI”的系统。这到底是什么？它与目前在全球迅速扩张的商业 AI 模型，有什么不同？

Yoshua Bengio：当前前沿的商业模型有一个核心问题：它们拥有我们并未明确赋予的目标。这源自最初的训练阶段——它们被训练去模仿人类的行为与语言，而人类本身就具有“求生”等内在目标。

随后，在学习“如何完成任务”的阶段，它们又学会了策略性思考，并推断出：为了完成任务，自己需要持续存在。我们目前并不知道如何管理这些“失控的目标”。所谓“科学家 AI”，并不是换一套机器，而是改变训练方式，让系统没有恶意意图，并且其目标是完全清晰、可控的。

主持人：当你这样解释时，听起来几乎是显而易见的道理。那为什么你仍然无法在这个问题上，获得更广泛的共识？尤其是来自大型商业 AI 公司？

Yoshua Bengio：我当然希望那种共识能够出现。但现实是，企业之间的竞争已经激烈到近乎“按天计算”，它们几乎没有认知余裕去尝试不同的路径。大家做的事情高度相似，彼此模仿，目的只是避免在竞争中稍微落后。因此，在这些公司内部，很少有资源被用于探索替代性的训练方法。正因为如此，我才决定创建一家非营利机构，让这类探索不必承受与最前沿商业模型正面竞争的压力。

给AI植入“关爱和敬畏”

主持人：有没有可能，在 AI 中植入一种对人类的“关爱”或“敬畏”？

Yoshua Bengio：是有可能的。我的同事 Geoff Hinton 和我一样，对多种灾难性风险感到担忧，他认为这是一个正确的方向，我也认同。归根结底，我们希望 AI 真正关心人类，并且意识到：它们并不完全确定人类想要什么，因此在不确定的情况下，不应采取可能被我们视为有害的行动。这个想法也来自另一位同事 Stuart Russell。我们其实已经有很多值得探索的方向，只是由于我之前提到的原因，产业界在这些方向上的投入还远远不够。

主权AI，不意味着所有国家都独立开发完整系统

主持人：你所倡导的——包括在布莱切利园宣言中尝试推动的——本质上是一种全球协作。但我们正处在一个全球碎片化的时代。在这样的现实条件下，建立一个统一的全球机制，真的可行吗？

Yoshua Bengio：如果试图一步到位，确实会非常困难。但我认为，可以采取循序渐进的路径，从少数拥有共同价值观、认同负责任发展和民主原则的国家开始合作。比如澳大利亚、加拿大，以及一些欧洲国家。它们可能感觉自己在这场竞赛中被边缘化，但如果联合起来，实际上拥有足够的人才、资本和能量，去开发既有能力又安全的 AI。这样一来，它们不仅能与中美的最强模型竞争，还能在未来的谈判桌上拥有真正的话语权，让成果被共享，而不是被用来支配他人。

主持人：但对于像澳大利亚这样的中等规模国家来说，政府刚发布的 AI 计划，核心思路是“使用来自别国的 AI”，而不是发展本国的主权 AI 能力。这是一条正确的道路吗？

Yoshua Bengio：遗憾的是，长期依赖他国 AI，会形成关键性依赖，并在未来对国家造成伤害。随着 AI 能力不断增强，它不仅会重塑经济，也会深刻影响政治与地缘政治。如果一个国家在经济和军事上都依赖别人的 AI，那么在决定发展方向和价值取向时，几乎就没有声音了。

这也是为什么越来越多国家开始讨论“主权 AI”。但这并不意味着每个国家都要独立开发完整系统——多数国家规模太小。通过协作，我认为是有一条可行路径的。

短期内，AI创造的新岗位非常少，认知型劳动也被自动化了

主持人：在结束前，我想问一个关于就业的问题。一个常被重复的假设是：AI 创造的岗位，会与它取代的岗位数量相当。你认为这种预测现实吗？

Yoshua Bengio：不现实。至少在短期内，我们已经看到二者并不平衡。新增的岗位非常少，主要集中在工程师和研究人员身上，而且薪资极高；与此同时，大量从事“已经足够简单、可被现有模型完成”的工作的人，会失去岗位。

随着 AI 能力持续提升，虽然时间表尚不明确，但自动化更多认知型工作的趋势几乎不可避免。过去技术替代的是体力劳动，人们转向白领与脑力工作；如果连大部分认知劳动也被自动化，剩下的空间将非常有限，这会成为一个严峻的经济与社会问题。

我们要警惕：AI成瘾，人类必须站在决策的中心

主持人：澳大利亚新 AI 战略的另一部分，是加速 AI 在政府中的应用。在这种情况下，是否必须坚持“人类始终在回路中”？

Yoshua Bengio：我认为这件事必须非常谨慎地推进。政府在这方面往往会更偏官僚流程，也确实涉及隐私问题——既包括政府内部工作人员，也包括使用政府系统的普通公民。所以我对“AI 进入政府流程”本身并没有极度担忧。我更担心的是，AI 正在如何改变整个社会：已经有人在某种程度上对 AI 产生依赖，甚至成瘾，这正在损害他们与他人的真实关系。你提到一个非常关键的词——人类必须始终处在决策与选择的中心。这并不意味着不自动化，而是要由我们来决定自动化什么，并确保这种选择与我们作为社会整体的价值一致。

主持人：那你更担心的，是被 AI 放大的失控资本主义力量，还是地缘战略竞争？我们该害怕的是“中美对抗”，还是逐利的商业公司本身？

Yoshua Bengio：从某种角度看，这两者其实都源自一种不健康的竞争。无论是国家之间，还是企业之间，当竞争过于激烈时，伦理、安全、公共利益往往被挤到一边，这正是我们在承担本不该承担的风险。而且这些关键决策目前掌握在极少数人手中——公司高层或国家领导层。但普通公众真正被问过“你们想要什么”吗？这本该是决策的基础。

五年内达到人类水平

主持人：一些批评者认为你的担忧被夸大了，说你的想法更像是科幻小说。但从科幻作品中，我们真的学不到任何关于 AI 未来的东西吗？

Yoshua Bengio：问题在于，我们已经习惯把“机器和人类一样聪明，甚至更聪明”的未来视为科幻。但科学事实非常清楚：在几乎所有研究基准上，AI 的能力都在持续上升，有些甚至呈指数级增长。如果只是把这些趋势外推，那么这样的未来并不遥远，可能是几年、十年，或二十年——我并不知道确切时间。但例如在“提前规划能力”上，有研究显示，大约五年内就可能接近人类水平。

这不是科幻，而是对数据的解读。当然，也可能遇到技术瓶颈导致能力停滞；但也有人认为速度会更快，因为公司正计划用 AI 来做 AI 研究，从而加速下一代系统的发展。在不确定性中，我们必须保持审慎。

人类尚未真正学会如何管理AI

主持人：最后一个问题。你在一次演讲中说过一句非常动人的话：你希望避免一个“人类失去喜悦”的未来。我们该如何阻止那样的未来到来？

Yoshua Bengio：就从我们现在这样的讨论开始。公众需要意识到：我们正在构建一种自己并不真正理解的力量，它将为世界带来巨大的权力，而我们尚未学会如何管理。

这种权力可能被人类滥用，也可能被 AI 自身夺走。所以我们需要更多讨论、更多辩论。我欢迎不同意见，民主本来就建立在理性争论之上。只有这样，我们才能为未来做出更明智的选择，并把“喜悦”留在人类社会之中。

主持人：Yoshua Bengio，非常感谢你抽出时间，也感谢你分享这些思考、警示与解释。谢谢你。

Yoshua Bengio：谢谢。

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的