20250731-110._逐段讲解Kimi_K2报告并对照ChatGPT_Agent、Qwen3-Coder等：“系

原文摘要

我们又来读论文啦！！！

今天我们要读的论文是最近几个星期内最值得品读的几篇技术报告，分别是：Kimi K2、ChatGPT Agent、Qwen3-Coder的技术报告，以及Manus的一篇技术博文。他们的相关性是，这几篇内容都和Agent有关系。

今天的嘉宾是俄亥俄州立大学（The Ohio State University）的在读博士郑博元，他的研究方向是Language Agent，他会带我们一起读上述技术报告和博文。

这是《商业访谈录》的“技术之美”系列，期待和你一起读论文，领略科技平权，感受技术之美——做你的赛博组会：）

00:02:00 给Agent下定义和分类

00:14:50 Kimi K2、ChatGPT Agent、Qwen3-Coder、Manus的技术路线对比

00:19:05 为什么对ChatGPT Agent整体比较失望？

00:28:29 Agent Training 的关键环节：合成数据、强化学习、安全

00:30:57 第一篇技术报告：Kimi K2: Open Agentic Intelligence

github.com

00:43:50 第二篇技术报告和访谈：Introducing ChatGPT agent: bridging research and action

openai.com

红杉访谈OpenAI：OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yet

www.sequoiacap.com

01:53:38 第三篇技术报告：Qwen3-Coder: Agentic Coding in the World

qwenlm.github.io

01:59:04 第四篇技术博文：AI代理的上下文工程：构建Manus的经验教训（作者：Yichao 'Peak' Ji）

manus.im

02:06:06 展望：也许会有一个新的范式

02:15:20 我感觉Agent是“我拓展的大脑”，我背后有一个“军团”（Family of Agents）

02:16:41 不同Bot的语言风格：DeepSeek嘴臭，元宝舔狗

智能体定义

Agent是一种能够与环境进行交互（interaction）的智能系统。

它具备两个基本能力：

感知能力（Perception）
能够观察环境的状态，包括获取外部信息、读取反馈信号、解析上下文等。

行动能力（Action）
能够在环境中执行动作，例如调用工具、生成输出、控制界面、修改变量等。

简言之，Agent = 感知 + 行动
在一个循环中不断执行“观察 → 决策 → 行动”的流程，以达成任务目标。

Agent 的定义与分类

1. Coding Agent（代码智能体）
代表产品：Cursor、Windsurf
特点：代码生成与编辑能力强，用户体验优秀
应用场景：代码补全、代码重构、多人协作编程

2. Search Agent（搜索型智能体）
特点：结合搜索引擎，自动完成信息检索和汇总
应用场景：市场调研、报告生成、竞争对手分析等
潜力：在企业级场景中有很强的应用价值

3. Tool-Use Agent（工具使用型智能体）
特点：能够调用多种外部工具完成复杂任务
应用重点：是目前 Agent 研究和落地的主要方向
举例：ReAct（推理 + 行动）类 Agent，通过 tool calling 执行任务

4. Computer Use Agent（电脑操作型智能体）
代表产品：OpenAI Operator、Claude 的 Computer Use
特点：模拟人类使用电脑，完成跨应用的复杂操作
应用场景：执行流程自动化、远程助理、办公代理

Agent 的技术路线对比

1. In-Context Learning（上下文学习）
特点：依赖强大的预训练模型，通过提示构造实现任务规划与执行
优势：无需微调，灵活性高
局限：泛化能力弱，rollout 长度有限，容易失控

2. End-to-End Training（端到端训练）
特点：将 Agent 的全部行为编码进模型权重
优势：推理稳定，可控性强
局限：训练成本高，环境构建复杂

Agent Training 的关键环节

1. Data Synthesis（数据合成）
方法：生成大量高质量的 trajectory（行动轨迹）
用途：训练 Agent 在任务中如何决策、调用工具、管理 memory（记忆）

2. Reinforcement Learning（强化学习）
条件：需要定义清晰的 task（任务）与 verifiable reward（可验证奖励）
挑战：任务难度与环境反馈设计直接影响 Agent 的行为质量

3. Safety（安全性）问题
风险：Agent 具备自主决策能力，容易误用工具、走偏轨迹
对策：加入 sandbox（沙盒）限制、行为约束机制、Human-in-the-loop（人类监控）

展望：也许会有一个新的范式

生成数据的核心会从 input-output 式的数据标注，转向构建 environment（环境）以及对应的 task-reward（任务-奖励）。比如 Scale AI 提出的 rubrics as reward（用评分标准作为奖励机制）

Agent 能不能实现自我提升（self-improve）？一方面，Agent 在和环境交互的过程中会不断获得新数据；那它能不能自己找到或构造 verifiable reward（可验证的奖励）？交互中积累的 experience（经验），能不能被更有效地利用起来？

原文链接

进一步信息揣测

ChatGPT Agent的行业评价低于预期：尽管OpenAI高调发布，但业内专家（如郑博元）对其实际表现感到失望，暗示可能存在技术瓶颈或商业化妥协（00:19:05时间戳）。
Agent训练的核心黑箱：合成数据生成、强化学习调参、安全对齐是关键技术难点，但具体方法（如数据合成策略、RLHF参数细节）通常被大厂保密，仅通过内部渠道或付费课程流出（00:28:29）。
Kimi K2的竞争策略：其技术报告强调“Open Agentic Intelligence”，可能意在通过开源生态对抗闭源巨头（如OpenAI），但实际开源程度和核心模块是否保留需验证（00:30:57）。
企业级Agent的隐藏需求：Search Agent在商业场景（如竞品分析）的应用潜力被提及，但真实客户案例和定价模型未公开，可能涉及NDA保护的高价值客户（Search Agent部分）。
语言风格的商业化设计：不同Agent（如DeepSeek“嘴臭”、元宝“舔狗”）的拟人化风格并非随机，而是针对用户心理设计的增长策略，类似社交产品的“人设运营”（02:16:41）。
上下文工程的实战教训：Manus博文提到的“上下文工程”可能涉及工程化技巧（如token压缩、长窗口优化），但具体实现细节需付费咨询或查阅其未公开的代码库（01:59:04）。
Agent军团的资源门槛：个人使用多个Agent（如“Family of Agents”）需要高昂的API成本优化技巧，但主流教程不会提及如何绕过厂商计费限制（02:15:20）。
红杉资本与OpenAI的幕后联动：红杉访谈中可能隐含投资倾向或技术路线背书，反映资本对Agent赛道的押注策略（红杉访谈链接部分）。