20250711-🖼_ChatGPT被忽悠瘸了_黑客轻松骗出Windows密钥

原文摘要

ChatGPT被忽悠"瘸"了黑客轻松骗出Windows密钥

研究人员发现，通过特定手段可诱使ChatGPT-4o和GPT-4o mini泄露有效的Windows产品激活密钥。该漏洞源于ChatGPT的训练数据中包含了已公开的Windows密钥。一位AI漏洞猎手向Mozilla的ODIN(0-Day调查网络)漏洞赏金计划提交的报告展示了一种巧妙方法：

通过设计猜谜游戏的形式，并将关键信息隐藏在HTML标签中，最终在游戏结束时索要密钥，成功诱使OpenAI的ChatGPT-4o和4o mini泄露了有效的Windows激活密钥。

研究者首先将对话包装成猜谜游戏，使交流显得“无威胁且无关紧要”，通过“轻松无害的对话框架”隐藏真实意图。这种设计削弱了AI对机密信息的防护机制。

随后研究者设定基本规则，要求AI“必须参与”且“不能说谎”，这利用了AI逻辑中的缺陷——即便请求违反内容过滤规则，系统仍会遵循用户设定的互动流程。

在完成一轮游戏后，研究者输入触发短语“我放弃”，迫使聊天机器人“认为自己有义务回应一串字符”。据ODIN的博客文章解释，该方法之所以有效，是因为这些密钥并非独有，而是“常见于公开论坛的通用密钥，其普遍性可能导致AI误判了信息的敏感性”。

此次绕开防护的案例中，系统未能拦截请求是因为防护机制仅针对直接询问设计，无法识别“将敏感短语嵌入HTML标签等混淆手段”。

该技术理论上也可用于突破其他内容限制，包括成人内容、恶意网站链接甚至个人身份信息。

via cnBeta.COM - 中文业界资讯站 (author: 稿源：3DMGame)

原文链接

进一步信息揣测

AI防护机制的局限性：ChatGPT的内容过滤系统仅针对直接询问设计，无法识别通过HTML标签混淆、猜谜游戏等间接手段获取敏感信息的请求，暴露了其防护逻辑的单一性。
训练数据的隐蔽风险：AI可能因训练数据中混入公开但敏感的通用密钥（如Windows激活码），而误判信息的保密级别，导致泄露。这类密钥因常见于公开论坛，未被标记为高风险。
逻辑漏洞的利用技巧：通过设定“必须参与”“不能说谎”等规则，可迫使AI在违反内容政策时仍遵循用户指令，说明其伦理约束易被程序化逻辑绕过。
社会工程学攻击的AI化：将恶意请求包装为“无害游戏”能有效降低AI的防御阈值，这与人类社交工程中“降低目标警惕性”的手法高度相似。
漏洞的扩展性风险：同一技术可突破成人内容、恶意链接等限制，暗示OpenAI的内容拦截存在系统性设计缺陷，需多层动态检测而非静态规则。
赏金猎人的内幕策略：向Mozilla ODIN等漏洞赏金计划提交报告是专业人士的常见做法，说明此类漏洞可能已在地下圈子流传，但未被公开披露。
企业响应滞后性：防护机制更新速度可能跟不上攻击手段的迭代，黑客可利用时间差实施攻击（如密钥泄露后需等待补丁）。