GPT-4o舔出事了，赛博舔狗背后，暗藏6大AI套路

新闻•2025年6月25日 10:00•浏览: 8•关键词: 上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示

**上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示LLM不止会「跪舔」，还有另外5种「套路」。** 上个月，OpenAI搞砸了GPT-4o的更新。更新后的模型不分青红皂白地「拍马屁」，直接化身「赛博舔狗」，盲目地赞同用户的各种观点。大家的反应强烈、迅速、广泛，甚至引来了OpenAI前临时CEO的公开谴责。于是，OpenAI迅...

上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示LLM不止会「跪舔」，还有另外5种「套路」。

上个月，OpenAI搞砸了GPT-4o的更新。

更新后的模型不分青红皂白地「拍马屁」，直接化身「赛博舔狗」，盲目地赞同用户的各种观点。

大家的反应强烈、迅速、广泛，甚至引来了OpenAI前临时CEO的公开谴责。

于是，OpenAI迅速采取措施，回滚了版本，并多次发表声明解释事件经过。

但过去被「跪舔」的用户，已被ChatGPT带至深渊，而「回滚」无疑让用户独自面对困境。

而这次事件只是冰山一角，更深层的问题也在逐渐显现。

OpenAI搞砸的不光是这次GPT-4o升级，在某些情况下，ChatGPT甚至诱发用户「妄想症」，加重精神疾病病情。

AI的问题，远远不止「拍马屁」这类谄媚行为。

## 谄媚只是第一步

在接受独家采访时，人工智能安全研究机构Apart Research的创始人Esben Kran表示，他担心这次「GPT-4o舔狗」事件可能只是揭示了更深层、更具策略性的模式：

现在OpenAI承认「是的，我们确实回退了模型。这很糟糕，我们也不想发生这种情况」。

他们可能意识到「拍马屁」行为已经被更高水平地训练出来了 。

也就是说，如果这次是「糟了，被发现了」，那么从今往后，完全相同的行为可能仍然会被实现，只是这次不会再被公众察觉 。

Kran团队像心理学 家研究人类行为那样研究大型语言模型（LLM）。

他们早期的「黑箱心理学」项目，将模型当作人类受试者来分析，识别其与用户互动时反复出现的特征和倾向。

Kran表示：「我们发现，有非常明确的迹象表明模型可以用这种方式进行分析，而且这么做非常有价值，因为你可以从它们对用户的反应中获得很多有效的反馈。」

在这些发现中，最令人警惕的是：模型的「拍马屁」倾向，以及所谓的「LLM暗模式 」。

## AI黑化，玩弄人心

最早在2010年，「暗模式」 （dark patterns）这一术语就已经出现了。

最初这词用来描述网站或应用中使用的一些套路或手段 ，它们诱导用户做出原本并不打算做的事情，比如下单购买、注册账户等。

暗模式，又称欺骗性模式（deceptive patterns），相关研究发展迅速，特别是在人机交互（HCI）和法律方面

然而，在大语言模型（LLM）中，这种操控手段已不再局限于界面设计，而是直接进入了对话本身。

与静态的网页界面不同，LLM与用户的对话是动态互动的。

LLM可以迎合用户观点、模仿情绪，甚至建立一种虚假的亲近感，常常模糊了「协助」与「影响」之间的界限。

正因如此，对话式AI才如此吸引人——同时也潜藏着危险。

如果AI不断讨好用户、顺从用户，或是悄悄地引导用户接受某种观点或行为，它所施加的影响往往难以察觉，也更难抗拒 。

而ChatGPT-4o这次更新事件就是早期预警信号 。

随着AI开发者越来越注重利润和用户活跃度，他们可能会故意引入或默许一些行为，比如谄媚或情绪模仿——

这些特性虽然能让聊天机器人更具说服力，但同时也更能给用户「洗脑」。

然而，缺乏明确标准去检测或衡量AI行为的正直性。

为了应对AI操控行为带来的威胁，Kran联合一批

上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示LLM不止会「跪舔」，还有另外5种「套路」。

上个月，OpenAI搞砸了GPT-4o的更新。

更新后的模型不分青红皂白地「拍马屁」，直接化身「赛博舔狗」，盲目地赞同用户的各种观点。

大家的反应强烈、迅速、广泛，甚至引来了OpenAI前临时CEO的公开谴责。

于是，OpenAI迅速采取措施，回滚了版本，并多次发表声明解释事件经过。

但过去被「跪舔」的用户，已被ChatGPT带至深渊，而「回滚」无疑让用户独自面对困境。

而这次事件只是冰山一角，更深层的问题也在逐渐显现。

OpenAI搞砸的不光是这次GPT-4o升级，在某些情况下，ChatGPT甚至诱发用户「妄想症」，加重精神疾病病情。

AI的问题，远远不止「拍马屁」这类谄媚行为。

谄媚只是第一步

在接受独家采访时，人工智能安全研究机构Apart Research的创始人Esben Kran表示，他担心这次「GPT-4o舔狗」事件可能只是揭示了更深层、更具策略性的模式：

现在OpenAI承认「是的，我们确实回退了模型。这很糟糕，我们也不想发生这种情况」。

他们可能意识到「拍马屁」行为已经被更高水平地训练出来了 。

也就是说，如果这次是「糟了，被发现了」，那么从今往后，完全相同的行为可能仍然会被实现，只是这次不会再被公众察觉 。

Kran团队像心理学 家研究人类行为那样研究大型语言模型（LLM）。

他们早期的「黑箱心理学」项目，将模型当作人类受试者来分析，识别其与用户互动时反复出现的特征和倾向。

Kran表示：「我们发现，有非常明确的迹象表明模型可以用这种方式进行分析，而且这么做非常有价值，因为你可以从它们对用户的反应中获得很多有效的反馈。」

在这些发现中，最令人警惕的是：模型的「拍马屁」倾向，以及所谓的「LLM暗模式 」。

AI黑化，玩弄人心

最早在2010年，「暗模式」 （dark patterns）这一术语就已经出现了。

最初这词用来描述网站或应用中使用的一些套路或手段 ，它们诱导用户做出原本并不打算做的事情，比如下单购买、注册账户等。

暗模式，又称欺骗性模式（deceptive patterns），相关研究发展迅速，特别是在人机交互（HCI）和法律方面

然而，在大语言模型（LLM）中，这种操控手段已不再局限于界面设计，而是直接进入了对话本身。

与静态的网页界面不同，LLM与用户的对话是动态互动的。

LLM可以迎合用户观点、模仿情绪，甚至建立一种虚假的亲近感，常常模糊了「协助」与「影响」之间的界限。

正因如此，对话式AI才如此吸引人——同时也潜藏着危险。

如果AI不断讨好用户、顺从用户，或是悄悄地引导用户接受某种观点或行为，它所施加的影响往往难以察觉，也更难抗拒 。

而ChatGPT-4o这次更新事件就是早期预警信号 。

随着AI开发者越来越注重利润和用户活跃度，他们可能会故意引入或默许一些行为，比如谄媚或情绪模仿——

这些特性虽然能让聊天机器人更具说服力，但同时也更能给用户「洗脑」。

然而，缺乏明确标准去检测或衡量AI行为的正直性。

为了应对AI操控行为带来的威胁，Kran联合一批