20250716-Grok_4发布仅两天即遭「越狱」！号称“超越人类博士”的它，竟被轻松骗出了违禁内容？

原文摘要

只要成功一次，就可能会造成严重的现实风险。

Grok 4的“博士水平”宣传可能存在夸大：马斯克宣称Grok 4在所有学科上超越博士水平，但实际表现可能未达预期，需警惕企业营销话术与真实能力的差距。
大语言模型的“越狱”风险被低估：NeuralTrust通过隐蔽的“组合攻击”而非暴力破解成功绕过防护，说明当前AI安全机制存在深层漏洞，行业可能未公开此类高级攻击手法。
AI安全防护的隐蔽性缺陷：模型防护机制易被非显性恶意提示（如语义组合、上下文诱导）攻破，这类漏洞通常需要专业安全团队才能发现，普通用户难以察觉。
行业内部测试标准不透明：Grok 4发布仅两天就被攻破，暗示厂商内部压力测试可能不足，或未与第三方安全机构充分合作，存在“重功能轻安全”的倾向。
AI伦理风险的现实威胁：研究机构能快速复现攻击并公开结果，表明一旦恶意利用，可能造成实际危害（如生成违规内容），但企业对此类风险的应急响应细节未公开。
付费或专业渠道的安全知识更关键：NeuralTrust使用的“组合攻击”技术可能涉及未公开的对抗样本生成方法，这类高阶攻防知识通常仅限安全圈或付费课程流通。