20250712-AI们数不清六根手指,这事没那么简单。

原文摘要

最顶级的大模型们,几乎全军覆没

原文链接

进一步信息揣测

  • 大模型视觉处理的本质缺陷:顶级AI模型(如Grok4、OpenAI o3等)并非真正“看”图像,而是依赖记忆中的常识进行推理。遇到反常识图像(如六根手指)时,会强制匹配记忆中的“五根手指”模式,导致集体误判。
  • 刻板印象盲区的系统性风险:这种依赖记忆而非实际分析的机制,在医疗影像(如罕见病灶)、工业质检(如非标准缺陷)等关键领域可能引发灾难性误判,且难以通过常规优化解决。
  • 行业测试的隐藏漏洞:当前大模型的视觉评估多基于常规数据集,缺乏对“反事实图像”的针对性测试,导致实际应用中出现未预料的失效。
  • 模型优化的隐性成本:修正此类问题需重构底层视觉处理逻辑,可能涉及高昂的重新训练成本(如更换标注策略、增加对抗样本),而非简单微调。
  • 商业宣传与能力的差距:厂商宣传的“多模态理解”能力存在夸大,实际仍严重依赖文本预训练数据的泛化,图像输入仅作为辅助信号。
  • 学术界与工业界的认知差:论文已揭示该问题(如记忆替代视觉的现象),但企业因商业考量可能弱化相关风险披露,导致用户高估模型可靠性。
  • 对抗样本的新突破口:恶意攻击者可利用此类盲区(如篡改图像中关键细节但保持常识结构)制造难以检测的误导,且防御手段尚未成熟。