Gemini Spark 内部泄露:Google 的 Agent 宏图
Google 内部流出的 Gemini Spark 截图揭示了其全新的 Agent 架构,重点转向了高级工具使用与 Skills(技能) 的创建流。
- 模型同时支持 Agent 与 Chat 双模式运行。
- 现阶段 Skills 仅支持通过粘贴 Markdown 文件进行手动创建,暂无直接导入功能。
- 目前尚未集成浏览器(Browser)或电脑(Computer)控制权限。
- Gemini 3.5 Pro 展示了通过 Three.js 快速构建 3D 视觉效果的潜力。
这种架构表明 Google 正在将 Agent 的能力原子化。将 Skills 定义为一种可配置的“插件”或“指令包”,意味着未来的生产力工具不再是通用的聊天框,而是针对特定任务的微型应用集合。
Markdown 作为创建 Skills 的介质是一个有趣的细节。这暗示了 Prompt Engineering 的显性化,让开发者能够以最简单的结构化文档定义 Agent 的逻辑边界,降低了功能扩展的门槛。
虽然目前缺乏底层系统控制权限(如浏览器控制),但这更像是一种安全与工程上的保守释放。Google 显然在等待多模态理解与执行精度达到特定阈值,以避免类似早期实验产品的翻车风险。
Gemini 3.5 Pro 对渲染引擎(如 Three.js)的支持,预示着 AI 不再仅仅是文字输出,而是能够直接交付可交互的视觉前端代码。这种从“对话”到“交付成品”的转变,是 2026 年 AI 平台竞争的主战场。