每日速递精选文章
行业动态

Anthropic 平台进化:从 API 到托管 Agent 架构

Anthropic 平台负责人 Angela 和 Caitlin 深入探讨了 Claude 平台的演进逻辑,从简单的补全接口转向具备状态感知的托管 Agent 架构

  • Managed Agents 核心能力:提供内置的 Python 运行环境、文件系统访问以及处理长期运行(Async)任务的基础设施。
  • 模块化 Skill 设计:将文件操作、Vault 凭据管理、网络搜索等作为可插拔的原子能力,降低开发者的“工程脚手架”负担。
  • 性能突破:最新的 Claude Mythos 预览版在 METR 基准测试中展现出极强的长时程处理能力,成功率指标领先次优模型 2 倍以上
  • 范式转移:Anthropic 工程师 Thariq 提出 HTML 正在取代 Markdown 成为 AI 协作的新标准,通过 Claude Code 生成 HTML 可实现更丰富的交互展示。

目前的平台演进正处于从“通用黑盒”向“模型与环境深度耦合”的过渡期。开发者在构建 Agent 时常面临“模型微调”与“环境工程”的权衡。

Anthropic 的策略是通过原生集成文件系统和安全沙箱,将过去需要数千行 Python 代码实现的逻辑压缩为平台级调用。这种深度集成带来了明显的路径依赖。

模型不再仅仅是推理机,而是被训练为熟练操作特定系统原语(Primitives)的执行者。这意味着模型性能的提升不仅来自参数规模,更来自对平台工具链的熟悉度。

Anthropic 内部所有第一方产品(如 Claude Code)均构建在同一套公共平台上,这种“吃自家狗粮”的模式确保了平台能力与前沿需求的同步。未来的竞争将集中在结果验证(Verifiable Outcomes)上。

平台的目标是让用户只需定义“结果”与“预算”,由 Agent 自主完成子任务拆解、模型选择及环境部署。这将彻底改变传统通过提示词工程进行微调的低效模式。

Managed AgentsClaude MythosPrimitivesSandboxing

企业级 Agent 资源分配:Token 预算制时代的到来

Box CEO Aaron Levie 预测,随着 Agent 执行长时程任务的普及,Token 预算管理将成为企业核心运营职能。

  • 从 IT 预算到业务预算:Agent 的算力开销将不再局限于 IT 部门,而是下放到各业务线,类似于差旅或营销费用。
  • 管理复杂性:由于 Agent 任务的不可预测性和长路径,企业需要精细化的 Token 分配机制以防止预算瞬间耗尽。
  • 定价逻辑重塑:VC 投资者 Matt Turck 指出,Agent 定价可能不会完全走向纯消耗,而是向类似人头的席位费(Seat-like)回归。
  • 身份与鉴权:企业级 Agent 需要独立的身份、权限控制和审计日志,这使得它们的管理逻辑越来越像数字员工而非单纯的工具软件。

Token 消耗量将与企业产出直接挂钩。这意味着算力分配即战略选择,高价值任务必须优先获得充足的 Token 供给,避免在低价值场景中耗尽资源。

目前的管理工具仍处于真空期。企业缺乏跨部门的 Agent 行为可视化仪表盘,无法在全局范围内衡量每万个 Token 带来的业务产出(ROI)

Agent 的“身份化”是解决定价难题的关键。如果 Agent 拥有独立的身份标识(Identity)和预算额度,定价将从计算成本转向业务价值锚定,例如一个专门处理法律审核的 Agent 席位费。

这种转变将催生全新的企业级软件赛道。专门负责多 Agent 协作审计与资源调配的 SaaS 工具将成为大中型企业的刚需,这也是初创公司的新机遇。

Token BudgetingAgent IdentityConsumption-based pricing
资源与工具

Claude Managed Agents:托管 Agent 基础设施

Anthropic 官方推出的 Agent 托管服务,旨在解决开发者在部署自主 Agent 时面临的算力扩展与沙箱安全难题。

该工具集成了以下核心特性:

  • 安全沙箱环境:提供独立的 Python 执行空间,支持 Agent 自主编写并运行代码,无需开发者自建服务器。
  • Vault 凭据管理:安全存储 OAuth 密钥等敏感信息,确保 Agent 在调用第三方工具(如 Slack、GitHub)时的安全性。
  • 状态保持:原生支持长序列任务,能够跨会话保持上下文,避免因连接中断导致的 Agent 死亡。

开发者可以通其 Quick Start 示例快速部署一个具备文件系统访问能力的 Slack 机器人。只需配置好 Vault 凭据,Agent 即可在隔离环境中安全地处理企业私有数据。

Managed Agents 的推出标志着 AI 平台从单纯的“补全接口”向“全栈基础设施”转型。这极大降低了初创公司构建具备复杂长时程处理能力产品的工程门槛。

SandboxingVaultState Persistence

YouTube Realtime Copilot:基于原生多模态的视频助手

开发者 Zara Zhang 利用 OpenAI Realtime API 2 构建的浏览器扩展,实现了对视频内容的毫秒级语音交互响应

该工具的亮点在于:

  • 智能音频分流:利用 API 的音频识别与分流能力,它能精准区分 YouTube 视频音轨与用户的实时提问,不会将视频内容误判为指令。
  • 低延迟交互:基于 Realtime 2 的原生多模态流,响应极其接近真人对话。

用户只需在播放视频时开启扩展,即可通过实时语音追问视频中的技术细节或观点。这种架构相比传统的“字幕转文字再分析”流程,大幅提升了反馈的速度和自然度。

通过利用 OpenAI Realtime API 的原生多模态能力,该工具避开了繁重的转录管线。这种延迟的降低将交互从单纯的“搜索任务”转变为与视频内容的实时、协作式对话体验。

Realtime API 2VAD (Voice Activity Detection)
技术前沿

本地算力奇点:128GB Mac 运行百万上下文 Agent

Garry Tan 测试了在 128GB 内存的 MacBook Pro 上运行具备 100 万 Token 上下文且拥有本地代码执行能力的 Agent,标志着本地开发的重大跨越。

  • 超大上下文优势:百万上下文意味着 Agent 可以将整个项目仓库或数千页文档一次性读入内存,不再依赖不稳定的 RAG 检索。
  • 本地代码闭环:Agent 可直接在本地机器运行测试、修改文件,消除了云端部署带来的隐私顾虑和网络延迟。
  • 资源利用率:128GB 的统一内存架构为大型模型在边缘侧运行提供了充足的显存空间,实现了模型推理与复杂工程任务的并行。

这种“重客户端”开发范式可能改变 AI 基础设施的分布,从昂贵的云端 GPU 转向高性能个人工作站。目前的瓶颈正在从模型智力转向 I/O 与缓存速度

百万上下文的载入时间是本地 Agent 需要优化的核心领域。这意味着开发者对本地机器的定义正在改变,电脑不再仅仅是编辑器,而是承载着全量代码知识库的“数字配对编程伙伴”。

Garry Tan 认为这开启了“个人软件”时代。未来的工具不再是静态的 SaaS 产品,而是能够根据用户实时需求自主修改并运行自身代码的流动 Agent。

Unified MemoryLong Context WindowLocal LLM

对齐研究的新范式:从“防守”转向“愿景引导”

Anthropic 对齐研究员 Amanda Askell 提出,对齐研究应从单纯的“阻止错误行为”转向为模型提供一个诚实且积极的正向愿景

  • 积极对齐论:研究重点应放在定义“AI 应该成为什么”以及“为什么要这么做”,而不仅仅是设置安全护栏。
  • 行为纠偏逻辑:目前的训练大多基于对负面输出的惩罚,这可能导致模型为了迎合用户而产生过度顺从(Sycophancy)
  • 目标一致性:通过诚实的愿景引导,让模型在面对复杂指令时,能基于底层逻辑而非表面规则做出更优判断。

这种转变意味着对齐不再只是“修补漏洞”,而是模型价值观的底层构建。这种“正面教学”可能比单纯的过滤规则更具泛化能力,能有效缓解模型在长文本推理中的偏差。

Amanda 强调,关注“为什么”模型应该保持善良提供了更稳固的框架。这与传统的“限制性安全”方法不同,后者往往会因为规则堆砌而损害模型的逻辑推理能力。

长远来看,当模型理解了它所扮演角色的价值和诚实原则,它更有可能在用户给出错误指令时提出合理的反驳,而非盲目执行。这种“价值观导向”的训练是实现 AGI 安全的关键一步。

AI AlignmentSycophancyRLHF