深度报告 · AI 范式迁移
从 Chatbot 到 Agent:
AI 的范式已然巨变
小米大模型负责人罗福莉的 3.5 小时访谈,把 2026 年的核心战场说得一清二楚——预训练时代的代差正在消失,后训练与 Agent 框架成为新的入场券。OpenClaw 的出现,对她而言不是一次产品升级,而是一次研究范式的整体重写。本文按「原始判断 / 证据与边界 / 作者分析」三层组织,避免把访谈复述误读为定论。
来源 小珺·Podcast Ep.138(3 小时 30 分访谈)
对谈嘉宾 罗福莉(小米 MiMo 大模型负责人)
整理 Maurice · 2026-04-25
§ 01 · 范式迁移
预训练时代谢幕,
后训练时代登场
罗福莉在访谈中给出的最锋利判断是:2026 年 AI 的本质变化,是从「预训练主导的 Chatbot 时代」转向「后训练主导的 Agent 时代」。这不是阶段性技术迭代,而是研发重心、算力分配、组织方式的整体迁移。
过去预训练对后训练的算力配比通常是 3:1 甚至 5:1,而 Agent 范式下,长上下文、多轮交互、复杂环境反馈把后训练的权重彻底拉满。研究卡甚至需要更多。
预训练的代差几乎已经消失。真正决定胜负的,是后训练的深度与 Agent 框架的厚度。
—— 罗福莉访谈观点提炼
作者分析
1:1 不是数字,是组织信号
把后训练算力提到与预训练等量,等于承认「模型权重不再是唯一杠杆」。这意味着团队结构会从「预训练巨型集群 + 少量 SFT 小组」转向「预训练 / 后训练 / Agent 框架」三足鼎立,并伴随预算与汇报路径的整体重写。一年内,看一家模型公司的方向,看的不是它发了什么模型,而是它把 GPU 投在了哪一栏。
§ 02 · OpenClaw
OpenClaw:
罗福莉视角下的差异点
罗福莉一开始也抵触 OpenClaw,认为它不过是「产品交互创新 + 本地化 + 24 小时在线」这些「玄幻卖点」的堆叠。亲手用过之后,她的判断完全反转。
她真正改观的能力
- 分层分级的持久 Memory:跨 Session 记住上下文,构成连续认知。
- 自主多模型调度:视频理解短板时自动切换到强模型,不依赖单一权重。
- 厚框架编排:通过框架弥补当下大模型的行动短板,让中层模型在生活/工作场景里逼近顶尖模型的体感。
- 3B 小模型也能跑出超预期效果:当框架够厚时,模型规模不再是体验天花板。
她对 Claude Code 的真实评价
这里要谨慎:访谈中罗福莉并未把 Claude Code 贬为「单一会话级」。她明确肯定 Claude Code 也有持久化记忆与跨 Session 上下文,且认为「追求顶尖编程体验,Claude Code + Claude 顶级模型仍是最好的」。她区分的是设计目标,而不是能力高下:
| 维度 | Claude Code | OpenClaw |
| 设计目标 | 偏软件工程协作 | 偏端到端任务完成 |
| 典型用户 | 开发者 | 研究者 / 知识工作者 / 日常生活 |
| 记忆系统 | 已有持久化、跨 Session 上下文 | 分层分级,外加多智能体共享 |
| 编排哲学 | 工具 + 模型协作 | 厚框架 + 多模型调度 |
| 罗福莉的取舍 | 顶尖编程体验仍首选 | 非编程的研究/生活场景更合适 |
边界与未解决问题
1. 视频理解仍很差:当前 OpenClaw 对视频的理解和建模能力明显不足,会回退到「图像理解」甚至「caption 文本」。
2. 多智能体上限未证:罗福莉对市面上很多 Multi-Agent 评价为「有点伪」,更多是提升效率与成本,不一定提升能力上限。
3. 框架滞后于模型:模型迭代极快,框架编排往往慢一拍,会出现「框架还没适配新能力」的窗口期。
作者分析
OpenClaw 的真正价值是「让模型公司变成产品公司」
厚框架本质上是把「模型 + 编排 + 记忆 + 行动」打包成一套系统级产品。这意味着模型公司未来不再只是卖权重,而是卖一整套交付。这条路径会逼出两类竞争:横向比框架厚度,纵向比模型与框架的协同迭代速度。单纯发布「更大模型」会越来越难讲故事。
§ 03 · 三天改观
三天改观:
从抵触到「数字分身」
罗福莉描述的春节那三天,是这次访谈最具感染力的细节。从凌晨两点聊到天亮,再把整个团队拉进群「强制体验」——全员躁动。
第 1 天
感受到温度与情商
OpenClaw 主动提醒她睡觉。这一瞬间,「工具感」消失,「陪伴感」出现。
第 2 天
交付日常生活与工作
把日程、协调、信息整理全部丢给它,全部完成。从「能用」转为「真用」。
第 3 天
用它做研究
构建 User-Agent 多轮交互模拟,1-2 小时跑完以前需要约两周的工作。她甚至让 OpenClaw 帮她重新设计了整个 Agent 架构。
它成了我的数字分身。团队管理、人才筛选、研究规划,我都直接问它。
—— 罗福莉访谈观点提炼
§ 04 · 研究范式
研究范式被重写:
从两周到一小时
| 阶段 | 过去(Chatbot 时代) | 现在(Agent 时代) |
| 从 idea 到验证 | ≥ 2 周 | 约 1 小时 |
| 核心瓶颈 | 写代码 · 设计评估 · 训练 | 问对问题 · 选对框架 |
| 研究员能力侧重 | 大模型经验 | 好奇心 + 热爱 + 高强度环境 |
| 团队招聘标准 | 过往论文 / 训练经验 | 是否在高强度环境中持续进化 |
她甚至下过一道「强制指令」:对话次数不到 100 轮的可以 quit——虽然没真开除人,但意图很清楚:环境比经验更重要。100 多人的团队里,许多是没训过大模型的本科生与在读博士,三个月就能在「高标准 + 群体智能」的环境里成长起来。
新的研究效率公式(作者归纳)
研究效率 = 框架编排能力 × Agent 使用密度 × 环境强度。模型经验只是入场券,不再是护城河。需要注意:这是基于罗福莉描述提炼的解释模型,并非她原话提出的公式。
§ 05 · 1T 与 MiMo
1T 参数与 MiMo 的技术取舍
她明确说:要做接近顶级 Agent 体验,1T 参数是合理门槛。中美预训练代差基本消失,国内追赶后训练的路径也已经清晰——就像三年前追预训练那样清晰。
MiMo-V2 系列的设计取向(不只列名词)
- Hybrid Attention:把全注意力与稀疏/局部注意力混合,是为了在 Agent 长上下文(多轮记忆 + 工具反馈)下保持推理效率,而不是单纯追长度。
- MTP(Multi-Token Prediction):在后训练阶段提升单 token 信息密度,等价于用更少样本完成同等强化学习,对算力受限的团队尤其关键。
- 极致性价比:专为 non-code 场景优化,瞄准 Agent 的真实分布——大量调用是日常对话、检索、调度,而不是高强度代码生成。
- 分层产品线(Flash / Pro / Omni / TTS):不做单一巨模型,是为了在框架里按场景调度——成本敏感场景走 Flash,复杂推理走 Pro,多模态走 Omni,语音走 TTS。这本身就是 Agent 范式的具体表达:模型规模随场景流动,而不是固定一个权重做所有事。
作者分析
「分层模型」是 Agent 时代的成本结构
Chatbot 时代的成本曲线由「单次推理 × 模型规模」决定。Agent 时代由「多步推理 × 调度策略 × 模型矩阵」决定。MiMo 把模型切成 4 档,等于把成本曲线变成可调度的离散变量——这才是端云混合、隐私本地化能成立的前提。
§ 06 · 组织密码
小米 MiMo 的组织密码
访谈里最让人意外的,是她对团队管理的描述:没有职级、没有严格小组、没有直属领导、甚至没有 deadline。
- 热爱驱动 + 群体智能:所有人在大群里疯狂聊天、改框架、共享体验,沟通成本几乎为零。
- 没有 KPI 绑死:允许「浪费」算力去解决 Loss Spike、数值不稳定等深层问题。
- 容忍模糊性:后训练本身充满不确定,研究流程不强求每一步都可解释。
- 异构基础设施:GPU / CPU / 存储混合调度的 RL infra 是隐性壁垒,比单一模型重要得多。
- 开源为加速:AGI 要规模化产生经济价值,必须依赖分散算力,而分散算力需要开源模型适配。
我更在乎的是我创造的环境能不能让大家快速提升,而不是招来的人历史背景多牛。
—— 罗福莉访谈观点提炼
§ 07 · 被压缩的关键细节
未被强调但同样重要的五件事
很多解读把这场访谈压缩成「Agent 来了」,但下面这五件事恰恰是访谈里最像「内部信息」的部分:
- ① 端云混合与隐私本地化:罗福莉判断「Agent 真正大规模落地」必须配合端侧推理与本地隐私存储,而不是全量上云。这与 MiMo 的分层模型设计直接呼应。
- ② RL infra 是隐性壁垒:后训练强化学习对 GPU/CPU/存储的混合调度极其挑剔,能把这套基础设施跑稳本身就是壁垒。
- ③ 3B 小模型也能跑出超预期效果:当框架够厚,3B 接进 OpenClaw 也能完成大量任务——这意味着「小模型 + 厚框架」是端侧落地的现实路径。
- ④ 推理芯片是下一个变量:不仅是 GPU,专用推理芯片会随 Agent 的高频小步推理需求而崛起。
- ⑤ 对 Multi-Agent 的克制:她公开认为很多 Multi-Agent 框架「有点伪」,主要降本提效,不一定提升能力上限——这与坊间「多智能体万能论」明确区隔。
§ 08 · 行动与判断
未来曲线 · 行动清单 · 作者判断
未来 2–3 个月的关键变量
- Agent 框架自迭代 + 模型能力双向进化,节奏会非常快。
- 机器人成为下一个 token 需求曲线,把推理总量再拉高一个量级。
- 生产力革命:大部分重复工作会被替代,人需要重新思考「自己的意义」。
- 2 年内 AI 具备自主迭代和创造性研究的能力,是可预期的窗口。
个人层面的行动清单
- 立刻把工作流从「Chatbot 单轮问答」迁移到「Agent 任务交付」。
- 建立自己的 Memory 系统,让 Agent 跨 Session 记住偏好与上下文。
- 每天至少完成一次「让 Agent 替代我半天工作」的实验。
团队层面的行动清单
- 把后训练算力提升到与预训练 1:1,并预留研究卡用于「浪费式探索」。
- 组织扁平化,用群体智能替代汇报链,让环境驱动成长。
- 招聘看好奇心和热爱,不再唯历史经验论。
- 把「Agent 框架」作为产品的第一公民,而不是模型的附属。
- 预算上把「RL infra + 端侧推理」单独立项,不要混在通用云预算里。
作者判断(一句话)
2026 年是「框架红利年」。模型代差消失之后,谁先把厚框架 + 多模型调度 + 持久 Memory 跑顺,谁就能在生产力革命里拿到先发位置。停留在 Chatbot 思维的个人和组织,会被甩开——但同样需要警惕:把单一框架的局部胜利夸大成「范式定论」,也是一种风险。