深度学习笔记 · 第 001 期
2026 · 04 · 25 · 约 12 分钟阅读
深度报告 · AI 范式迁移

从 Chatbot 到 Agent
AI 的范式已然巨变

小米大模型负责人罗福莉的 3.5 小时访谈,把 2026 年的核心战场说得一清二楚——预训练时代的代差正在消失,后训练与 Agent 框架成为新的入场券。OpenClaw 的出现,对她而言不是一次产品升级,而是一次研究范式的整体重写。本文按「原始判断 / 证据与边界 / 作者分析」三层组织,避免把访谈复述误读为定论。

封面:剪影人物伫立悬崖之畔,眺望被分裂地平线和远处涌现的发光网络照亮的旷野,象征从 Chatbot 到 Agent 的范式迁移(Poe gpt-image-2 生成,2048×1280)
§ 01 · 范式迁移

预训练时代谢幕,
后训练时代登场

罗福莉在访谈中给出的最锋利判断是:2026 年 AI 的本质变化,是从「预训练主导的 Chatbot 时代」转向「后训练主导的 Agent 时代」。这不是阶段性技术迭代,而是研发重心、算力分配、组织方式的整体迁移。

1:1
预训练 / 后训练算力比
1T+
Agent 时代参数门槛
2 年
自主迭代能力的窗口

过去预训练对后训练的算力配比通常是 3:1 甚至 5:1,而 Agent 范式下,长上下文、多轮交互、复杂环境反馈把后训练的权重彻底拉满。研究卡甚至需要更多。

预训练的代差几乎已经消失。真正决定胜负的,是后训练的深度与 Agent 框架的厚度。 —— 罗福莉访谈观点提炼
作者分析

1:1 不是数字,是组织信号

把后训练算力提到与预训练等量,等于承认「模型权重不再是唯一杠杆」。这意味着团队结构会从「预训练巨型集群 + 少量 SFT 小组」转向「预训练 / 后训练 / Agent 框架」三足鼎立,并伴随预算与汇报路径的整体重写。一年内,看一家模型公司的方向,看的不是它发了什么模型,而是它把 GPU 投在了哪一栏。

§ 02 · OpenClaw

OpenClaw:
罗福莉视角下的差异点

罗福莉一开始也抵触 OpenClaw,认为它不过是「产品交互创新 + 本地化 + 24 小时在线」这些「玄幻卖点」的堆叠。亲手用过之后,她的判断完全反转。

她真正改观的能力

她对 Claude Code 的真实评价

这里要谨慎:访谈中罗福莉并未把 Claude Code 贬为「单一会话级」。她明确肯定 Claude Code 也有持久化记忆与跨 Session 上下文,且认为「追求顶尖编程体验,Claude Code + Claude 顶级模型仍是最好的」。她区分的是设计目标,而不是能力高下:

维度Claude CodeOpenClaw
设计目标偏软件工程协作偏端到端任务完成
典型用户开发者研究者 / 知识工作者 / 日常生活
记忆系统已有持久化、跨 Session 上下文分层分级,外加多智能体共享
编排哲学工具 + 模型协作厚框架 + 多模型调度
罗福莉的取舍顶尖编程体验仍首选非编程的研究/生活场景更合适
边界与未解决问题

1. 视频理解仍很差:当前 OpenClaw 对视频的理解和建模能力明显不足,会回退到「图像理解」甚至「caption 文本」。

2. 多智能体上限未证:罗福莉对市面上很多 Multi-Agent 评价为「有点伪」,更多是提升效率与成本,不一定提升能力上限

3. 框架滞后于模型:模型迭代极快,框架编排往往慢一拍,会出现「框架还没适配新能力」的窗口期。

作者分析

OpenClaw 的真正价值是「让模型公司变成产品公司」

厚框架本质上是把「模型 + 编排 + 记忆 + 行动」打包成一套系统级产品。这意味着模型公司未来不再只是卖权重,而是卖一整套交付。这条路径会逼出两类竞争:横向比框架厚度,纵向比模型与框架的协同迭代速度。单纯发布「更大模型」会越来越难讲故事。

§ 03 · 三天改观

三天改观:
从抵触到「数字分身」

罗福莉描述的春节那三天,是这次访谈最具感染力的细节。从凌晨两点聊到天亮,再把整个团队拉进群「强制体验」——全员躁动。

第 1 天

感受到温度与情商

OpenClaw 主动提醒她睡觉。这一瞬间,「工具感」消失,「陪伴感」出现。

第 2 天

交付日常生活与工作

把日程、协调、信息整理全部丢给它,全部完成。从「能用」转为「真用」。

第 3 天

用它做研究

构建 User-Agent 多轮交互模拟,1-2 小时跑完以前需要约两周的工作。她甚至让 OpenClaw 帮她重新设计了整个 Agent 架构。

它成了我的数字分身。团队管理、人才筛选、研究规划,我都直接问它。 —— 罗福莉访谈观点提炼
§ 04 · 研究范式

研究范式被重写:
从两周到一小时

阶段过去(Chatbot 时代)现在(Agent 时代)
从 idea 到验证≥ 2 周约 1 小时
核心瓶颈写代码 · 设计评估 · 训练问对问题 · 选对框架
研究员能力侧重大模型经验好奇心 + 热爱 + 高强度环境
团队招聘标准过往论文 / 训练经验是否在高强度环境中持续进化

她甚至下过一道「强制指令」:对话次数不到 100 轮的可以 quit——虽然没真开除人,但意图很清楚:环境比经验更重要。100 多人的团队里,许多是没训过大模型的本科生与在读博士,三个月就能在「高标准 + 群体智能」的环境里成长起来。

新的研究效率公式(作者归纳)

研究效率 = 框架编排能力 × Agent 使用密度 × 环境强度。模型经验只是入场券,不再是护城河。需要注意:这是基于罗福莉描述提炼的解释模型,并非她原话提出的公式。

§ 05 · 1T 与 MiMo

1T 参数与 MiMo 的技术取舍

她明确说:要做接近顶级 Agent 体验,1T 参数是合理门槛。中美预训练代差基本消失,国内追赶后训练的路径也已经清晰——就像三年前追预训练那样清晰。

MiMo-V2 系列的设计取向(不只列名词)

作者分析

「分层模型」是 Agent 时代的成本结构

Chatbot 时代的成本曲线由「单次推理 × 模型规模」决定。Agent 时代由「多步推理 × 调度策略 × 模型矩阵」决定。MiMo 把模型切成 4 档,等于把成本曲线变成可调度的离散变量——这才是端云混合、隐私本地化能成立的前提。

§ 06 · 组织密码

小米 MiMo 的组织密码

访谈里最让人意外的,是她对团队管理的描述:没有职级、没有严格小组、没有直属领导、甚至没有 deadline

我更在乎的是我创造的环境能不能让大家快速提升,而不是招来的人历史背景多牛。 —— 罗福莉访谈观点提炼
§ 07 · 被压缩的关键细节

未被强调但同样重要的五件事

很多解读把这场访谈压缩成「Agent 来了」,但下面这五件事恰恰是访谈里最像「内部信息」的部分:

§ 08 · 行动与判断

未来曲线 · 行动清单 · 作者判断

未来 2–3 个月的关键变量

个人层面的行动清单

团队层面的行动清单

作者判断(一句话)

2026 年是「框架红利年」。模型代差消失之后,谁先把厚框架 + 多模型调度 + 持久 Memory 跑顺,谁就能在生产力革命里拿到先发位置。停留在 Chatbot 思维的个人和组织,会被甩开——但同样需要警惕:把单一框架的局部胜利夸大成「范式定论」,也是一种风险。