20250729-OpenAI_发布通用型_ChatGPT_代理，以应对_Excel、PowerPoint_和_Chr

原文摘要

OpenAI发布了ChatGPT代理，它将Operator的浏览技能和Deep Research的总结能力整合到单一的“ChatGPT代理”中。

原文链接

进一步信息揣测

ChatGPT代理的实际准确率存在争议：尽管官方宣称在SpreadsheetBench上达到45.5%准确率（远超Copilot-in-Excel的20%），但第三方测试（如ZDNet）发现其多步骤任务中仅12.5%能无幻觉完成，且执行效率可能低于人类（如30分钟vs人类15分钟）。
高风险场景的隐忧：Sam Altman私下建议避免将代理用于高风险用途或处理敏感个人信息，暗示其可靠性尚未经过充分验证，可能存在数据泄露或错误输出的风险。
代理的底层技术依赖代码执行：通过后台运行Python代码生成文件（如.xlsx/.pptx），但多工具并行时错误率上升，OpenAI内部承认此场景下风险更高且耗时更长。
行业数据垄断趋势：Meta以140亿美元购买Scale AI近半数合成数据资源，暴露大模型训练对高质量标记数据的极度依赖，而中小厂商可能被迫转向Turing等中立平台（年收入3亿美元，400万专家标记员）。
开源生态的“影子市场”：awesome-ai-agents等社区列表收录大量未官方公开的代理项目，开发者可通过分叉快速构建私有工作流（如连接GitHub/Grafana），但缺乏官方支持可能引入安全隐患。
企业级应用的潜规则：Box CEO指出代理会因1%的错误率导致权限误开放或信息误共享，建议将输出视为草稿并强制沙盒测试，反映内部部署时的实际容错标准。
基准测试的“水分”：OpenAI引用的DSBench、BrowseComp等成绩需基于允许代码执行和浏览的前提，实际封闭环境中性能可能大幅下降，存在宣传选择性披露。
代理与GPT-5的关联线索：Alexander Wei的评论暗示GPT-5发布临近，当前代理可能是其能力拆分的过渡产品，内部技术路线存在未公布的迭代计划。