20250729-OpenAI_发布通用型_ChatGPT_代理,以应对_Excel、PowerPoint_和_Chr

原文摘要

OpenAI发布了ChatGPT代理,它将Operator的浏览技能和Deep Research的总结能力整合到单一的“ChatGPT代理”中。

原文链接

进一步信息揣测

  • ChatGPT代理的实际准确率存在争议:尽管官方宣称在SpreadsheetBench上达到45.5%准确率(远超Copilot-in-Excel的20%),但第三方测试(如ZDNet)发现其多步骤任务中仅12.5%能无幻觉完成,且执行效率可能低于人类(如30分钟vs人类15分钟)。
  • 高风险场景的隐忧:Sam Altman私下建议避免将代理用于高风险用途或处理敏感个人信息,暗示其可靠性尚未经过充分验证,可能存在数据泄露或错误输出的风险。
  • 代理的底层技术依赖代码执行:通过后台运行Python代码生成文件(如.xlsx/.pptx),但多工具并行时错误率上升,OpenAI内部承认此场景下风险更高且耗时更长。
  • 行业数据垄断趋势:Meta以140亿美元购买Scale AI近半数合成数据资源,暴露大模型训练对高质量标记数据的极度依赖,而中小厂商可能被迫转向Turing等中立平台(年收入3亿美元,400万专家标记员)。
  • 开源生态的“影子市场”:awesome-ai-agents等社区列表收录大量未官方公开的代理项目,开发者可通过分叉快速构建私有工作流(如连接GitHub/Grafana),但缺乏官方支持可能引入安全隐患。
  • 企业级应用的潜规则:Box CEO指出代理会因1%的错误率导致权限误开放或信息误共享,建议将输出视为草稿并强制沙盒测试,反映内部部署时的实际容错标准。
  • 基准测试的“水分”:OpenAI引用的DSBench、BrowseComp等成绩需基于允许代码执行和浏览的前提,实际封闭环境中性能可能大幅下降,存在宣传选择性披露。
  • 代理与GPT-5的关联线索:Alexander Wei的评论暗示GPT-5发布临近,当前代理可能是其能力拆分的过渡产品,内部技术路线存在未公布的迭代计划。