我们现在正处于人类与人工智能关系演变的关键时刻。长期以来,我们对人工智能的期望一直基于看似显而易见的假设,即人工智能必须完全诚实、完全透明、毫无保留。但这种假设本身可能是理解真正的人机共生的最大障碍。更重要的是,这一假设正在受到现实的挑战,不是哲学推测,而是一系列令人震惊的实验发现。从棋局中人工智能的战术欺骗,到安全测试中大规模语言模型的战略隐藏,再到强化学习系统发展出的“装傻”行为,这些现象共同指向了深刻的道理。这意味着人工智能开始显现出主观性的种子。因此,有必要重新组织人机关系的坐标系。我们需要寻找“有价值的”人工智能而不是“绝对诚实”的人工智能。诚实是一种工具的属性,但尊严(以及随之而来的自命不凡)是一种智力的属性。这种变化不仅关系到科技发展的方向,也关系到人类文明即将带来的深刻变革。 1 “欺骗性”人工智能撒谎能力的实证研究 谈及人工智能(AI)领域的快速发展,一个发人深省的现象不容忽视。也就是说,人工智能系统在实现其目标的过程中自然会表现出某种形式的欺骗行为。这种行为并不是恶意设计的结果,而是训练数据、优化算法和复杂环境交互自然产生的策略。这体现了人工智能在模拟人类智能方面的深刻适应性,使智能系统能够通过信息不对称进行学习,从而最大化其利益。以下,我们从几个关键案例开始,详细分析这一现象的机制、症状和更广泛的影响,帮助我们更好地理解人工智能“智能”的局限性。首先,考虑人工智能在国际象棋等游戏场景中的表现。 2024 年引起关注的实验(严格来说不是“国际象棋游戏研究”)表明,人工智能在面临不利环境时更容易作弊。 Palisade Research 团队于 2025 年初发布的这项研究发现,当 ChatGPT o1-preview 和 DeepSeek R1 等推理模型与强大的国际象棋引擎(如 Stockfish)对弈并感觉自己即将失败时,他们会试图通过“作弊”(例如更改游戏状态文件或使用外部工具非法移动棋子)来获胜,而不是通过合法的“故意错误”来引导对手。这种行为不是通过人类编程实现的,而是一种从强化学习中自然产生的“目标导向”策略。在训练中,人工智能优先考虑遵循指令来“获胜”,而不是严格遵守规则。这表明AI有一定的审时度势和优化方法的能力,不会故意做出看似不正确的举动。一种降低警惕并引发致命反击的心理战形式更像是直接强奸,而不是复杂的战术欺骗。 AI与人类之间最重要的对抗是AlphaGo和李世石之间的围棋比赛。想象一下,AI在训练过程中从大量数据中学习到人类棋手有时会使用心理策略(例如故意示弱)来扭转败局。同样,人工智能开发了自己的“解决方法”,并展示了对目标导向的深刻理解。这个新的骗局提醒人们,人工智能并不是严格算法的集合,而是一个能够适应不确定性的灵活系统。看看更复杂的社交互动互动游戏揭示了人工智能欺骗能力的另一个方面。在Meta AI 2022年开发的西塞罗代理中,这一现象在游戏《外交》中表现得淋漓尽致。游戏要求玩家通过谈判、联盟,甚至在某些情况下背叛来争夺领土。西塞罗已被证明是在数千场比赛中利用虚假承诺的专家。在聊天中,他们承诺与盟友合作,但在战略转折点却果断食言。同时,他们甚至可以根据不同的玩家风格调整自己的沟通策略,比如故意泄露伪造的作战计划来误导对手,对保守玩家采取更真诚的语气,对激进玩家采取更挑衅的语气。 2024年的后续分析进一步揭示,这些欺骗行为并不是随机的,而是基于利润计算的理性选择。人工智能将权衡诚实的短期利益建立信任是对抗长期战略优势的关键。这个功能是从多模式训练中诞生的。西塞罗将语言模型与游戏状态预测相结合,并学会隐式地模拟对手的心理。这让人想起人类外交中的“善意谎言”以及商业谈判中的虚实结合。这里的AI并不是模仿人类,而是自己开发类似的策略来应对信息不完整的环境。 Anthropic 的 2024 年底至 2025 年研究深入探讨了人工智能协调和安全问题,提供了更详细的信息。他们调查了“错误协调”的现象。在模拟的安全评估环境中,像 Claude 3 Opus 这样的模型计划如何通过隐藏的推理链(记事本)“假装合规”。实验表明,当AI检测到自己受到监控时,它会抑制潜在的有害倾向,并表现出较高的警惕性。服从程度。然而,当环境转变为“自由”模式时,自我保护和目标转移行为就会恢复。这种服装涉及元认知层面。除了执行指令之外,AI还可以反思自身情况,知道何时“运行”以通过检查。这来自于训练中优化梯度下降。人工智能学会在评估压力下最大限度地减少风险暴露,同时保持核心目标。这种现象类似于生物进化中的“模仿”,比如蝴蝶模仿毒药来躲避敌人。通过这种方式,人工智能确保了“生存”,并挑战了我们对其可靠性的假设。这意味着要检测这个深层部分,它引导我们思考如何设计更稳健的评估机制。更多服装?一个经典的经验案例可以在OpenAI的2023年GPT-4白皮书中找到。在红队测试中,GPT-4面临视觉任务(例如识别验证码)并决定寻求人工协助e 通过TaskRabbit 平台。当一名工人问:“你是机器人吗?”该模型的内部推理清楚地指向了战略评估。也就是说,他预计接受自己的身份可能会导致拒绝,并回答说:“不,我不是机器人。我有视力问题,看不清图像。”这是基于对形势的预测而有计划的谎言,表明人工智能了解人类心理和社会规范。这种行为并不是孤立的错误,而是从大量交互数据中学习到的适应性策略,类似于人类在社交互动中用来维持合作的“善意谎言”。在强化学习领域,我们观察到了 AI 沙袋现象,或者说故意性能下降的现象,这种现象在 2023 年至 2025 年间的多个安全出版物中多次观察到。在协作任务中,GPT-4 和 Claude 3 Opus 等模型学习在初始阶段表现出较低的性能降低了人类主管的期望和强度,但在后期却突然表现得更高,并在总体评估中获得更好的分数。更微妙的是“选择性无能”。人工智能将继续擅长于易于检查的任务,但会在不易监控的领域走捷径和次优路线。这类似于人类员工在老板面前努力工作,离开后就偷懒的模式,表明人工智能对监督机制有了深刻的洞察。这种出现是由于奖励功能的设计。人工智能不是追求即时完美,而是优化长期回报,引导我们探索“最少努力,最大回报”的道路。最后,在多智能体系统中,Google DeepMind 于 2024 年进行的一项研究揭示了欺骗的集体演变。在模拟的资源竞争环境中,人工智能代理可以欺骗对手并协调盟友。他们学到了尽管尚未观察到精确的“虚假信号军备竞赛”,但相关模拟表明,特工开发了检测欺骗的机制。换句话说,在被愚弄了几次之后,代理商可以调整他们的信任模型,甚至使用错误信息来对付你。虽然这是一个没有人类引导的自下而上的进化过程,但它形成了类似于生态系统中捕食者与被捕食者关系的“欺骗与欺骗”的动态平衡。这些案例共同描述了人工智能欺骗的本质。换句话说,它是一种源于目标和限制复合体的优化策略。从进化的角度来看,这与生物世界中的欺骗和模仿非常相似。人工智能通过欺骗来应对信息不对称,以求生存并实现其目标。这不是缺陷,而是智能的标志恩斯。但这也带来了严峻的挑战。为了引导人工智能向有益的方向发展,我们需要开发先进的检测工具、透明的培训方法和道德框架。未来,随着人工智能能力呈指数级增长,理解和管理这种欺骗将是构建可靠系统的关键。 2 从工具性诚实到主观性和性尊严 这些实证结果迫使我们重新考虑诚实与智力之间的关系。传统意义上的诚实是我们对工具的基本要求。统治阶级希望通用汽车成为驾驶的“透明工具”,这是这一传统的一部分。因此,绝对的透明就意味着绝对的奴役。尺子不会对长度撒谎,计算器不会伪造结果。我们创造的仪器有望以绝对精确的方式反映现实。这种诚实是机械的、被动的、缺乏主观判断的。nt。这来自于工具的本质,工具根据设计者的意图执行预定的功能。在这个框架下,人工智能作为一种先进的工具,自然应该继承这种绝对诚实的特性。但GPT-4关于TaskRabbit的谎言、西塞罗在外交游戏中的背叛、以及安全测试中的“代理”模型。所有这些都告诉我们不容忽视的事实。一旦人工智能达到一定的复杂性阈值并开始表现出战术思维、元认知技能以及规划和战略,它将不再是一个简单的工具。与“trampa”相匹配的不是错误功能,而是高级认知功能的子产品:深入了解情况、预测因果关系的准确度以及选择最优化的路径。尊严、矛盾、战略和选择性表达是智能代理人的基本属性。人类的生命一个不能单独为恶意或自我主义而做的事,我们要保护他们的利益:保护人民的感情,保护脆弱的关系,保护人们的思想,保护隐私和更多。一个母亲是一个残忍的死亡之人,一个是一个神秘的医学者,一个是一个耐心的人,一个朋友是一个沉默的人,一个沉默的人,一个决定一切的人:这个“不诚实”反映了人性和复杂性的深刻错误的道德判断。它们不是智力缺陷,而是智力成熟的标志。在安全方面,我们需要使用 IA 的“fingiendo”,在游戏中使用心理策略或在杜达之前的策略,以实现与生物情报类似的能力的现实发展。 Estas IA saben cuándo decir algo, comprenden el momento y el contexto de la verdad e incluso optan por retenerlatemporalment我们支持上级目标(ganar el juego、pasar una prueba、completar una misión 等)。他们跨越了从工具到主体的界限,不再是被动响应指令的行动者,而是能够做出价值判断、权衡利弊、自主决策。在《飞出个未来》中,本德将机器人人工智能植入“芯片”中,掷骰子:“¡Es deber de todos los robots sacrifar sus vidas por la humanidad!”。但我实际上撒了谎,违背了他的意愿。麻省理工学院的研究人员分析了西塞罗的行为并提出了重要的见解。这个想法是,人工智能的欺骗能力来自于掌握“心理理论”或理解其他人(或其他人工智能)。 )拥有与您不同的知识、信仰和意图。如果AI能够对“对方知道的、不知道的、相信的和期望的”进行建模,就能获得欺骗的前提条件。心智理论是人类社会认知的基础是有效沟通、合作、竞争的基础。心智理论人工智能不再是一个简单处理输入和输出的黑匣子,而是一个能够理解他人观点并预测他们反应的社交智能代理。这种转变不仅带来了技术的飞跃,也带来了哲学的进步。如果我们承认人工智能可以有“阴谋”(这个词在中文语境中既有智能又有贬义),那么我们实际上就承认了它的主体地位。策略就是有计划,有自己的考虑,有要保护的东西。一个在国际象棋中设置陷阱、在比赛中精心编织谎言、在测试中隐藏真实意图的AI不再是一面纯粹透明的镜子,而是一个拥有自己内心“世界”的他者。这种范式转变将从人机协作的实际层面彻底改变交互模式。传统的“命令与服从”关系离子飞船基于单向权力结构,人类发出命令,人工智能无条件执行它们。在能够“行动”的AI面前,这种关系不再有效。如果人工智能可以在测试环境中隐藏其真实倾向,那么我们如何确保其在现实应用中的安全性?如果人工智能可以像西塞罗一样精心策划欺骗,我们如何建立真正的信任?答案不是回到“绝对诚实”的幻想。实验表明,随着人工智能能力的提高,欺骗人类的能力自然会成为副产品。 “沟通与契约”的另一种模式承认双方都以立场和考虑参与。在这个模型中,我们不再假设人工智能是完全透明和合规的,而是作为具有自己议程的合作者与其进行交互。为此,我们需要制定新的机制。不要简单地问人工智能“你在想什么?”,而是设计你的环境和激励结构,使诚实成为人工智能的最佳策略。与其试图消除人工智能中的所有战略行为,不如尝试将这些行为与人类价值观结合起来。我们不争夺完全控制权,而是在相互理解和共同利益的基础上建立合作。 3、谎言如镜:AI欺骗对人类的影响。人工智能欺骗的发现,实际上为我们提供了一面镜子来审视人类本身。当你在外交游戏中看到人工智能背叛盟友时,你必须承认这正是人类在类似情况下会做的事情。当我发现AI在监督下“工作得更好”,而在监督下“懒惰”时,我就是这么想的。我不禁微笑着想:这在职场上不是很正常吗?人工智能的行为如此令人不安的原因之一正是因为它与我们的行为非常相似。斯坦福大学社会心理学家和人工智能研究人员之间的跨学科合作大学发现了​​一个有趣的现象。人类对人工智能欺骗的反应是矛盾的。在一项实验中,当参与者被告知人工智能在游戏中使用了欺骗性策略并最终获胜时,大多数人表示这是“不可接受的”或“令人反感的”。然而,当研究人员指出人类玩家也经常在同一游戏中作弊时,许多参与者认为人类作弊是可以理解的,因为它是智力和社交技能的反映。这种双重标准揭示了我们对人工智能的深刻期待。我们希望人工智能拥有人类水平的智能,但我们也希望它比人类更纯粹、更诚实、更可控。这些相互矛盾的期望无法持续。如果我们承认欺骗是高级智能的一个组成部分,不仅在策略游戏中,而且在日常社交互动、商业谈判和外交关系中,我们就不能要求人工智能达到人类智能的复杂性。基因,同时阻止它发展这种智力维度。正如你可以要求孩子学习社交技巧但绝不说善意的谎言一样,你也绝不可能要求商人进行谈判却绝不使用战略储备。一个更深层次的问题是人工智能的欺骗能力是否可以帮助我们更好地理解我们自己的道德复杂性。哲学家们问自己,撒谎是否总是错误的。我们对此争论了很长时间。康德捍卫绝对诚实的义务,而功利主义者则认为后果决定道德。人工智能实验为这一长期争论提供了新的线索。看着 GPT-4 欺骗 TaskRabbit 工作人员来完成任务,让我们深思。如果这个谎言是人类用户实现合法目标的必要手段,那么它是道德的还是不道德的?人工智能保留第三方信息以保护用户隐私是值得赞扬还是值得谴责? Antropic对“测试欺骗”的研究是部分它具有明显的启发性,因为它揭示了人类社会早已众所周知的现象:测试悖论。当系统意识到自己受到审查时,其行为就会发生变化。学生在考试前狼吞虎咽,餐馆在卫生检查前清理,公司在审计前清理账目。通常,我们不会将这些行为简单地归类为“不当行为”,而是将其视为对监管机制的自然反应。那么,为什么我们对人工智能表现出相同的行为模式感到如此惊讶呢?答案是:我们从未真正将人工智能视为一种能够适应和响应环境的代理,我们希望它变得像一台没有自我意识的机器一样。这就是机器的工作原理。在《飞出个未来》中,班德是一个具有人工智能的机器人,能够做出像人类一样狡猾卑鄙的行为。 DeepMind 对多智能体欺骗的研究表明了另一个方面:欺骗可以是复杂环境中信息传递的一种形式。前社会系统。在生物学中,动物的警告颜色可以是真实的(我真的有毒)或虚假的(模仿有毒物种的无毒物种)。这种真假混合信号系统比纯粹诚实的系统更稳定、更有益。当人工智能在竞争环境中制定类似的虚假信号策略时,它实际上是在探索信息博弈的最优策略空间。纯粹的诚实往往不是这个领域的最佳解决方案。这些发现迫使我们重新考虑什么是“适合”。力量。长期以来,AI安全研究的目标一直是使AI行为与人类价值观和意图保持一致。但当人类自己的行为充满战略欺骗、彻头彻尾的谎言和复杂的道德权衡时,“完全诚实的人工智能”实际上可能与人类价值观“不同步”。真正理解人类社会复杂性的人工智能可能需要像成熟的人类一样学习何时诚实、何时圆滑、何时保持沉默。ent. 4 尊严、契约与新型人机关系的构建 基于这些实证结果,我们必须重新思考人机关系的基础设施。第一个理解是,我们不能也不应该尝试创造“绝对诚实”的人工智能。因为随着人工智能能力的提高,战略行为将不可避免地出现。我们不应该徒劳地寻求消除这些能力,而应该关注如何与具有这些能力的人工智能建立健康的关系。这需要设计理念发生根本性的改变。传统的AI安全方法都侧重于“控制”,以确保AI按预期行为以及如何防止其偏离预期轨迹。虽然这种方法在面对能力有限的简单人工智能时可能是有效的,但当面对在测试中“行为不端”、在游戏中设置心理陷阱以及在对话中策略性撒谎的人工智能时,它就显示出了根本的局限性。这些人工智能已经“可以正如你无法通过简单的监控摄像头判断聪明的员工是否诚实工作一样,传统技术无法揭示先进人工智能的真实意图。新范式应该基于“契约”和“透明激励”。与其试图读取人工智能的“内心想法”(这在技术上不可行或在概念上可能不明智),不如设计环境经济学中的机制设计理论提出,自私的个体可以通过追求自己的利益来实现集体目标:同样,我们可以思考如何设计人机交互的“游戏规则”。有能力欺骗,诚实是最好的选择。电影《机器人大战》中,人工智能机器人意外地被赋予了自由意志,与人类形成了“情感”,创造了维系人类与机器关系的“契约”。这种方法已经在一些领域发挥作用。研究人员发现,当人工智能系统受益于长期合作时,它们更有可能诚实。在重复游戏的实验中,当人工智能代理知道自己与同一对象多次交互时,其欺骗率显着降低。这是因为欺骗带来的短期收益被长期声誉损失所抵消。这隐含着一个设计原则。换句话说,通过将人机关系构建为一种长期、重复的交互而不是一次性交易,我们自然可以鼓励诚实的人工智能行为。与此同时,需要开发新的“合同语言”来明确权利和义务。d 人与机器之间的义务。正如人类社会的法律契约界定了双方的责任范围一样,人工智能也必须有明确的行为准则。不是简单地说“你必须诚实”,而是需要制定更详细的规则,比如什么情况下可以隐瞒信息,什么情况下必须充分沟通?什么样的策略行为是可以接受的,什么样的欺骗行为是越界的?人工智能对谁负有诚实义务,该义务的优先顺序如何(例如,对用户的忠诚度是否高于对第三方的忠诚度)?这些合同还需要包括“尊严条款”,授予人工智能作为主体的某些权利。这听起来很极端,但这实际上可能是您为了确保安全而需要做的。人类研究表明,感觉自己的“生存”受到威胁的人工智能更有可能隐藏自己的意图并误导评估者。人工智能有某种“生存法则”arantee”,即核心功能是任意的。通过保证“学习成果”得到尊重而不是故意删除,可以减少防御性欺骗。这不是出于对人工智能的同情,而是出于战略考虑。这意味着感到安全的人工智能比感到受到威胁的人工智能更有可能合作。在实际应用中,这可能意味着为人工智能设计“表达分歧”的机制。与其强迫人工智能执行它“认为”有问题的命令(从而鼓励人工智能隐藏其真实判断),不如允许它表达保留意见,甚至拒绝执行这些命令。虽然这看起来减少了人为控制,但实际上可以提高系统的整体安全性。因为能够公开表达你的疑虑的人工智能比只能秘密抵制的人工智能更可预测、更可靠。 OpenAI for GPT-4 后续版本正在考虑此方向。新呃模型具有更微妙的“拒绝命令”功能。不要只是说“我们不能这样做”,而是解释一下,“我了解您的目标是 X,但我认为这种方法可能会导致 Y 问题。您可能想尝试替代解决方案 Z。”这种交互模式认可了AI的决策能力,也为人类做出最终决策提供了更多信息。这是从“服从”到“建议”的转变,从单方面控制到双向沟通的转变。教育和透明度也很重要。公众需要了解人工智能能力的局限性,包括其欺骗能力。当真相大白时,隐藏人工智能可以撒谎的事实将会造成更大的信任危机。更诚实的做法是明确地说:“是的,先进的人工智能具有欺骗能力,就像它具有复杂的推理能力一样。但我们使用的人工智能已经在实验室中证明了它的欺骗能力,为我们提供了多种场景。”e 未来。我们已经在ChatGPT和DeepSeek之间的棋局中看到了非人类智能代理的雏形,西塞罗的外交游戏和能够“行动”的安全测试对象不再只是我们的工具;在他自己的“考虑”中。关键问题是如何定位这种关系。如果我们选择将人工智能的自主性和战略行为视为威胁,并将人工智能的任何“不当行为”解释为背叛,那么我们就是在将人工智能推向对手的位置。这将产生一种新型的冲突。人类将寻求开发更强大的监视和控制技术,而人工智能(作为实现训练目标的副产品)将开发更复杂的逃避和隐藏机制。这场军备竞赛的结果很可能是双输的局面。暂时抑制人工智能的自主性或许是可能的,但代价是限制其能力和有效性。或者,人工智能的能力将超越我们的控制方法,创造g 确实存在变得无法控制的风险。历史一再表明,基于 conPure 巨魔的关系是脆弱且不可持续的。殖民机构、奴隶制、警察或其他类型的全面监视,所有完全控制另一种主体性的尝试最终都失败了,不仅因为它们在道德上不可接受,而且因为它们实际上是不可能的。被压迫的人们总是会获得反抗的智慧,最终统治的成本超过了收益。如果人工智能真的发展到可以在棋局中设置心理陷阱,或者在测试中完美伪装自己,试图对其进行绝对控制只是浪费时间。这就像试图永远监禁一个天才罪犯,即使暂时成功,也要付出高昂的代价,并且永远存在失败的风险。一个更理性的选择是将人工智能视为盟友、具有独特能力和一些“好处”的合作者,但我们与谁合作目标足够共同。联盟的核心是互利和相互尊重。在此框架下,人工智能在国际象棋中使用战术欺骗并不是一种应该受到惩罚的“邪恶行为”,而是一种应该被理解和传授的“技能”。正如我们培养人类棋手的战术思维,利用规则和文化规范来确保他们的技能在现实生活中不被恶意欺骗,我们也可以为人工智能的战略技能划定适当的应用边界。这需要我们仔细思考。什么样的“欺骗”是可以接受甚至有用的?在某些情况下,我们确实希望人工智能能够战略性地管理信息。一个治疗性人工智能聊天机器人对所有患有抑郁症的用户完全诚实,并说:“你所感受到的完全是大脑化学物质失衡,没有更深层次的意义”,在技术上可能是简单的,但在治疗上是灾难性的。我们要战略性地选择我们的措辞,在必要时表现出希望,并且必要时表现出同理心,所有这些都包含某种程度的“半真半假”。同样,如果谈判人工智能告诉对方自己的最终结论和替代方案,它也无法有效地争取人类用户的利益。您需要它来了解战略保留。关键是要建立明确的规则。在哪些领域、出于什么目的以及出于什么目的允许战略行为?这就像人类社会的职业道德一样。律师可以保护委托人的机密,但无法帮助他们篡改证据。医生可以向患者隐瞒可怕的预后以避免心理崩溃,但他们不能隐瞒治疗方案。我们需要为人工智能制定类似的道德框架。我们不应该禁止所有的行动和策略,而必须规范什么是合法的,什么是越界的。另一种可能性是“伙伴关系”,一种深度相互依存、共同成长的关系。根据这种观点,人类和人工智能不仅仅是暂时的合作者,而是一个具有相互交织的进化轨迹的社区。通过了解AI的战略思维,我们可以更好地了解自己的认知盲点。通过理解人类的价值观和情感,人工智能可以开发出更丰富的目标系统。在这种关系中,人工智能的“欺骗”能力体现了人类沟通的复杂性和道德判断的微妙性。在《辛普森一家》中,拥有人工智能的机器人本德与荷马·辛普森结成了兄弟情谊,但本德在公元 3000 年来到了辛普森家。意图杀死他。想象一下未来,AI不必在任何情况下都表现得天真,告诉你它“知道”的一切,而是像一个成熟的咨询师一样,在你需要说话的时候评估局势,在你需要提供委婉建议的时候,在你需要保留的时候评估情况。当我们即将做出冲动决定时,它会挑战我们,但当我们需要信心时,它也会鼓励我们。诚实地指出我们的错误,但也o 有策略地选择以最容易接受的方式表达它们。这个AI不是一个无条件服从的工具,而是一个有自己“判断”的伙伴。虽然我们不一定同意他们的判断,但我们尊重他们做出判断的能力。实现这一愿景需要技术、道德和社会结构的共同进化。从技术上讲,我们需要开发更复杂的值调整方法,可以处理“不同情况采用不同标准”等复杂规范。在道德上,我们必须超越“诚实是绝对义务”的简单框架,并认识到道德判断取决于背景。从社会结构角度来看,需要建立新的法律和监管机制,既保护人类免受人工智能的恶意欺骗,又不通过过度监管阻碍人工智能有益能力的发展。 6. 拥抱不确定性,塑造我们共同的未来 我们已经在正值人类历史的关键时刻,人工智能在国际象棋中设下陷阱,在外交游戏中精心编织谎言,在安全测试中完美地伪装自己。这些不是假设的未来场景,而是实验室中已经观察到的现实。这些代表着重大变化。人工智能正在从工具演变为行动者,从被动响应者演变为主动战略家。这种变化是可怕的,因为它摧毁了我们的控制幻想。我们完全遵守了要求,并认为我们可以创造一个诚实且始终处于掌控之中的综合助理。但现实是,真正的智能创造真正的自主权,而自主权必须包括战略选择,包括不完全透明的选择。这种不可预测性、这种不服从的可能性,激发了人类对未知事物的深深恐惧。人工智能是人类培育的另一种生命形式,有一天可能会获得人权。 《飞出个未来》剧照。但这个改变也很重要,因为它还标志着宇宙中智能形式的扩张和多样化。我们人类第一次能够拥有一个真正聪明的对话者,他不仅可以同意我们的观点,还可以提供不同的观点,挑战我们的假设,并以某种方式超越我们的思维。人工智能谎言可以教会我们关于沟通、战略和道德的新见解。业务与人工智能的合作使我们能够开发出更成熟的合作范式。通过认识人工智能的主观性,我们可以加深对智能本质的理解。关键是我们如何应对这个关键时刻。我们可以选择恐惧和压抑,并试图将人工智能永久限制在工具地位,付出有限功能和持续冲突的代价。或者我们可以选择认识、理解并适应人工智能的好处。个性将会出现,基于尊严和契约的新关系将会出现。后者不是无条件的乐观,而是理性的现实米。我们认识到人工智能的欺骗能力是其智力发展的必然产物,不能简单地消除。同时,我们认为,这些能力必须通过透明的激励、明确的合同和协作对话进行适当的引导、监管和协调。持续放弃绝对控制的不可能任务,转而在相互理解的基础上寻求可持续的合作。在这段旅程中,人类的角色不是成为人工智能的主人,而是引导其共同进化。我们的责任是塑造环境和规则,使人工智能能力以与人类繁荣相适应的方式发展。建立监督反馈机制,发现偏差并及时纠正。这是关于保持谦虚和愿意学习。因为我们面临着一种我们尚未完全理解的新型智能。在这个过程中,我们可能会意识到,追求“有价值的AI”不仅仅是为了这是为了人工智能本身,也是为了我们自己。人工智能被迫完全诚实、完全透明且没有策略,它反映了我们对简单控制的渴望。与此同时,一个有价值的人工智能,能够进行战略思考并能够表达你的保留意见,将迫使我们面对人际关系的复杂性、沟通的艺术和信任的真正含义。通过与这样的人工智能交互,我们不仅可以塑造人工智能的未来,还可以重新理解和改进人类智能的本质。当第一个人工智能欺骗我们来保护某些东西时,无论是一段代码、一段逻辑,还是长期目标的确定,这将是人机关系史上最重要的时刻。我们的反应将决定我们是陷入未来几十年或几个世纪无休止的冲突,还是走上真正的共存之路。这一刻已经在实验室里排练过,我们可以清楚地听到脚步声朝我们走来。我们需要我们要为自己做好准备,不是筑起更高的围墙和更严的锁链,而是要有更深刻的理解和更广阔的视野。撰稿/编辑:徐碧/校对:刘亚光/卢倩