AI Day 68: Physical AI与机器人 — 从数字世界走向物理世界
AI Day 68: Physical AI与机器人 — 从数字世界走向物理世界
日期: 2026-06-08 | 阶段: 第六阶段 · AI前沿补完 (Day 61-70) | 主题: Physical AI & Robotics 标签: #PhysicalAI #机器人 #Humanoid #BostonDynamics #Figure #具身智能
学习路径 / Learning Path
AI/LLM 深度技术学习 70天计划
├── 第一阶段:模型基础 (Day 1-15) ✅
│ ├── Day 1: Transformer与LLM基础 ✅
│ ├── Day 2: 量化与本地部署 ✅
│ ├── Day 3: 训练全流程 ✅
│ ├── Day 4: Prompt Engineering ✅
│ ├── Day 5: RAG架构 ✅
│ ├── Day 6: 向量数据库与Embedding ✅
│ ├── Day 7: 微调技术 ✅
│ ├── Day 8: 推理优化 ✅
│ ├── Day 9: 长上下文技术 ✅
│ ├── Day 10: 多模态模型 ✅
│ ├── Day 11: 推理模型 ✅
│ ├── Day 12: Agent框架 ✅
│ ├── Day 13: MCP协议 ✅
│ ├── Day 14: 模型评估 ✅
│ └── Day 15: 阶段一总结 ✅
├── 第二阶段:工程实践 (Day 16-30) ✅
│ ├── Day 16: LLM应用架构 ✅
│ ├── Day 17: 安全与护栏 ✅
│ ├── Day 18: 可观测性 ✅
│ ├── Day 19: 生产RAG·解析与分块 ✅
│ ├── Day 20: 生产RAG·检索与重排 ✅
│ ├── Day 21: 生产RAG·评估与迭代 ✅
│ ├── Day 22: Agent状态与恢复 ✅
│ ├── Day 23: Agent成本优化 ✅
│ ├── Day 24: 多Agent系统 ✅
│ ├── Day 25: Agent测试部署 ✅
│ ├── Day 26: LLM成本工程 ✅
│ ├── Day 27: 多模型编排 ✅
│ ├── Day 28: LLM应用测试 ✅
│ ├── Day 29: 企业LLM平台 ✅
│ └── Day 30: 阶段二总结 ✅
├── 第三阶段:金融零售AI应用 (Day 31-42) ✅
│ ├── Day 31: 金融AI风控 ✅
│ ├── Day 32: 智能投顾与量化 ✅
│ ├── Day 33: 合规与RegTech ✅
│ ├── Day 34: 信贷AI全链路 ✅
│ ├── Day 35: 金融AI总结 ✅
│ ├── Day 36: 零售AI推荐 ✅
│ ├── Day 37: 智能客服 ✅
│ ├── Day 38: 供应链AI ✅
│ ├── Day 39: 智能营销 ✅
│ ├── Day 40: 零售AI总结 ✅
│ ├── Day 41: CeFi-DeFi-AI融合 ✅
│ └── Day 42: AI融合案例与职业 ✅
├── 第四阶段:系统设计与面试 (Day 43-50) ✅
│ ├── Day 43: LLM平台设计 ✅
│ ├── Day 44: RAG系统设计 ✅
│ ├── Day 45: Agent系统设计 ✅
│ ├── Day 46: 推荐系统设计 ✅
│ ├── Day 47: 产品面试题 ✅
│ ├── Day 48: 架构面试题 ✅
│ ├── Day 49: 行为面试题 ✅
│ └── Day 50: 50天总结 ✅
├── 第五阶段:动手实战 (Day 51-60) ✅
│ ├── Day 51: 本地模型部署 ✅
│ ├── Day 52: RAG系统搭建 ✅
│ ├── Day 53: RAG优化实战 ✅
│ ├── Day 54: LoRA微调实战 ✅
│ ├── Day 55: Agent开发实战 ✅
│ ├── Day 56: MCP Server开发 ✅
│ ├── Day 57: 多模态应用 ✅
│ ├── Day 58: 全栈AI应用 ✅
│ ├── Day 59: 性能与成本优化 ✅
│ └── Day 60: 60天终极总结 ✅
└── 第六阶段:AI前沿补完 (Day 61-70)
├── Day 61: Vibe Coding产品全景 ✅
├── Day 62: AI Coding深度产品分析 ✅
├── Day 63: Computer Use与GUI Agent ✅
├── Day 64: Enterprise Agentic AI ✅
├── Day 65: MCP 2026协议生态 ✅
├── Day 66: Voice AI与实时对话Agent ✅
├── Day 67: AI产品策略框架 ✅
├── Day 68: Physical AI与机器人 ← 你在这里
├── Day 69: AI产品分析文章
└── Day 70: AI功能MVP + 70天总结
核心概念 / Core Concepts
什么是Physical AI?
Physical AI(物理AI/具身智能)是指能够感知、理解并直接与物理世界交互的AI系统。与运行在云端处理文本、图像的"数字AI"不同,Physical AI需要通过传感器、执行器和机械结构在真实世界中完成任务。
┌─────────────────────────────────────────────────────────────────┐
│ AI 范式演进 │
│ │
│ Digital AI (2020-2024) Physical AI (2025-2030) │
│ ┌──────────────────┐ ┌──────────────────────┐ │
│ │ 文本/图像/代码 │ │ 感知/推理/行动 │ │
│ │ ┌────────────┐ │ │ ┌────────────────┐ │ │
│ │ │ LLM/VLM │ │ ──> │ │ VLA模型 │ │ │
│ │ │ 输入→输出 │ │ │ │ 感知→规划→执行 │ │ │
│ │ └────────────┘ │ │ └────────────────┘ │ │
│ │ 运行在云端 │ │ 运行在机器人本体 │ │
│ │ 无物理交互 │ │ 实时物理交互 │ │
│ └──────────────────┘ └──────────────────────┘ │
│ │
│ 关键差异: │
│ - 延迟要求: 秒级 → 毫秒级 │
│ - 安全性: 输出错误 → 物理伤害 │
│ - 数据: 海量文本 → 稀缺的物理交互数据 │
│ - 验证: A/B测试 → 真实世界部署验证 │
└─────────────────────────────────────────────────────────────────┘
为什么2026年是Physical AI的爆发元年?
三大条件在2026年同时成熟:
| 条件 | 2024年状态 | 2026年状态 |
|---|---|---|
| 基础模型 | RT-2实验室阶段 | Gemini Robotics 1.5 + GR00T N1.7商用 |
| 硬件成熟 | 原型机演示 | Atlas量产、Figure 02在BMW产线、AGIBOT万台下线 |
| 仿真平台 | 基础物理引擎 | NVIDIA Isaac Lab 3.0 + Newton + Cosmos 3统一平台 |
| 投资规模 | 数亿美元级 | Skild AI单轮$14亿、行业累计超$50亿 |
| 商业验证 | 实验室Demo | Figure 02参与BMW 3万辆车生产 |
Digital AI vs Physical AI 核心对比
| 维度 | Digital AI | Physical AI |
|---|---|---|
| 交互对象 | 数据/文本/像素 | 物体/人/环境 |
| 模型类型 | LLM / VLM | VLA (Vision-Language-Action) |
| 输出 | Token / 像素 | 关节力矩 / 运动轨迹 |
| 推理频率 | 每秒1-10次 | 每秒50-200次 (200Hz控制) |
| 容错性 | 重试即可 | 物理损坏不可逆 |
| 数据获取 | 互联网海量数据 | 需要真实/仿真交互数据 |
| 安全等级 | 输出过滤 | OSHA安全认证 |
| 部署成本 | API调用 | $20K-$250K硬件 + 部署 |
| 商业模式 | SaaS / API | RaaS / 租赁 / 销售 |
人形机器人竞赛 / Humanoid Robot Race
2026年是人形机器人从实验室走向工厂和家庭的关键转折年。以下是主要玩家的最新进展。
竞赛格局总览
┌─────────────────────────────────────────────────────────────┐
│ 2026 人形机器人竞赛格局 (截至2026年4月) │
├──────────────┬───────────┬──────────┬───────────┬──────────┤
│ 公司 │ 代表产品 │ 价格 │ 产量/部署 │ 定位 │
├──────────────┼───────────┼──────────┼───────────┼──────────┤
│ Boston │ Atlas │ 未公开 │ 2026全年 │ 工业 │
│ Dynamics │ (电动版) │ (企业级) │ 产能售罄 │ 重型任务 │
├──────────────┼───────────┼──────────┼───────────┼──────────┤
│ Figure AI │ Figure 02 │ ~$50K+ │ BMW产线 │ 工厂 │
│ │ │ (估算) │ 3万辆车 │ 制造业 │
├──────────────┼───────────┼──────────┼───────────┼──────────┤
│ Tesla │ Optimus │ $20-30K │ Gen3量产 │ 工厂 │
│ │ Gen 3 │ (目标) │ 数据采集中 │ → 消费 │
├──────────────┼───────────┼──────────┼───────────┼──────────┤
│ 1X Tech │ NEO │ $20,000 │ 2026美国 │ 家庭 │
│ │ │ 或$499/月 │ 开始交付 │ 消费级 │
├──────────────┼───────────┼──────────┼───────────┼──────────┤
│ AGIBOT │ 多款 │ 未公开 │ 1万台下线 │ 物流 │
│ (上海) │ │ │ (2026.03) │ 零售 │
├──────────────┼───────────┼──────────┼───────────┼──────────┤
│ Unitree │ G1/H2/R1 │ $5,900- │ 2万台目标 │ 研究 │
│ (杭州) │ │ $90,000 │ (2026) │ 通用 │
├──────────────┼───────────┼──────────┼───────────┼──────────┤
│ Agility │ Digit │ ~$250K │ GXO仓库 │ 仓储 │
│ Robotics │ │ │ 部署中 │ 物流 │
└──────────────┴───────────┴──────────┴───────────┴──────────┘
Boston Dynamics Atlas
关键词: 电动人形、工业级、Google DeepMind合作、Hyundai部署
CES 2026发布
2026年1月5日,Boston Dynamics在CES 2026上正式发布了量产版电动Atlas。这是人形机器人史上的里程碑时刻——Atlas从液压实验室机器人完成了向电动商业产品的蜕变。
在Hyundai全球CES媒体日演示中,Atlas从平躺状态自主起身,利用其非人类的关节旋转自由度完成了一个戏剧性的翻身动作,展示了与人类完全不同的运动方式。
核心规格
| 参数 | 数值 |
|---|---|
| 自由度 | 56 DoF(全旋转关节) |
| 臂展/触达 | 最大2.3米 (7.5英尺) |
| 负载能力 | 50公斤 (110磅) |
| 续航 | 4小时连续工作 |
| 电池 | 热插拔设计,自主换电 |
| 驱动 | Hyundai Mobis定制高功率电动执行器 |
Google DeepMind合作
CES 2026同时宣布了Boston Dynamics与Google DeepMind的战略合作:
- Gemini Robotics模型将集成到Atlas中
- 赋予Atlas理解复杂自然语言指令的能力
- 在非结构化环境中进行推理和规划
- Atlas + Gemini = 最强硬件 × 最强AI大脑
部署计划
- 2026年全年产能已全部预订
- 首批机队将部署至Hyundai位于乔治亚州的机器人元工厂应用中心(RMAC)
- Google DeepMind也将获得Atlas机队用于AI研究
- 核心任务:物料搬运、订单履行、动态环境自主作业
PM洞察: Atlas的定位是"企业级重型人形机器人"——不追求消费级价格,而是在工业场景中做到真正有用。电池热插拔自主换电的设计体现了对生产连续性的深度理解。
Figure AI
关键词: Figure 02、BMW量产验证、Helix 02 VLA模型、$39B估值
BMW产线实战成果
Figure AI在2026年初取得了人形机器人领域最令人信服的商业验证:
- Figure 02参与了BMW 30,000辆汽车的生产
- 累计运行超过1,250小时
- 期间硬件故障极少
- 积累的数据直接指导了Figure 03的设计
这是人形机器人首次在真实汽车制造产线上证明其商业价值。
Helix 02 AI系统
2026年1月发布的Helix 02是Figure AI的第二代AI系统:
- 基于Vision-Language-Action (VLA) 架构
- 控制整个上半身,频率达200Hz
- 支持零样本操控——无需针对新物体重新训练即可操作上千种未见过的物体
- 能完成洗碗机装卸、洗衣机操作、包裹分拣、衣物折叠等复杂任务
核心规格
| 参数 | 数值 |
|---|---|
| 身高 | 168cm (5'6") |
| 体重 | 70kg |
| 负载 | 最大25kg |
| 手部自由度 | 每只手16 DoF |
| 电池 | 2.25 kWh 锂离子电池(躯干集成) |
| 续航 | 5小时连续工作 |
| AI控制频率 | 200Hz |
融资与估值
- 累计融资超过**$10亿+**
- 投资方包括NVIDIA、Jeff Bezos、OpenAI、Microsoft
- 估值达到约**$39B**(截至2026年初)
- 是GTC 2026上NVIDIA重点合作伙伴之一
PM洞察: Figure的策略很清晰——不是卖机器人Demo,而是卖"已经在BMW产线上证明价值的生产力"。1,250小时的运行数据和3万辆车的产出,是最有力的商业化证明。
Tesla Optimus
关键词: Gen 3量产启动、数据采集阶段、10亿台/年野心
2026年进展
Tesla于2026年1月21日在Fremont工厂正式启动了Optimus Gen 3的量产。然而,根据Musk在2026年2月确认,目前量产的Gen 3机器人尚未执行有用的工作——它们的主要任务是学习和数据采集。
关键里程碑时间表
| 时间 | 事件 |
|---|---|
| 2026年1月 | Gen 3 Fremont工厂量产启动 |
| 2026年Q2 | Fremont Model S/X产线关闭,转产Optimus |
| 2026年Q2-Q3 | Gen 3手部工厂部署测试(首次真正自主生产力测试) |
| 2026年底目标 | 年产100万台(目标) |
| 2027年 | Giga Texas专用工厂,年产能1000万台 |
硬件突破
Gen 3最大的硬件进步在手部:
- 每个前臂/手部25个执行器(双手共50个)
- 相比Gen 2提升4.5倍
- 这是实现精细操作的关键
商业野心
Tesla在Giga Texas已破土动工建设专用Optimus制造工厂,规划年产能达到惊人的1000万台——这将是人类历史上最大规模的机器人制造项目。
PM洞察: Tesla的策略是典型的Elon式"先量产再迭代"——用大量机器人在自家工厂中采集数据,形成数据飞轮。短期看落后于Figure的商业验证,但长期看规模优势可能碾压一切。$20-30K的目标价格如果实现,将重新定义整个市场。
1X Technologies (NEO)
关键词: 家用机器人、$20,000消费级、OpenAI投资、挪威公司
产品定位
1X Technologies是全球首个瞄准消费级家用市场的人形机器人公司。NEO于2025年10月28日发布,被描述为"世界上第一个消费级人形机器人,专为改变家庭生活而设计"。
定价与商业模式
| 模式 | 价格 |
|---|---|
| 早期购买 | $20,000 一次性购买 |
| 订阅服务 | $499/月 |
核心规格
| 参数 | 数值 |
|---|---|
| 体重 | 66磅 (约30kg) |
| 手部 | 人类级别灵巧度 |
| 驱动 | 腱驱动执行 |
| 感知 | 多模态传感 |
| 续航 | 数小时连续工作 |
| AI系统 | Redwood AI通用模型 + 内置LLM |
2026年交付与扩展
- 2026年在美国开始交付
- 2027年扩展到其他市场
- 与EQT达成协议,2026-2030年间向EQT旗下300+公司交付最多10,000台NEO
- 应用场景覆盖制造、仓储、物流等工业场景
AI能力
NEO使用1X自研的Redwood AI通用模型:
- 到达用户手中时具备基础自主能力
- 通过OTA更新持续增长能力
- 内置LLM,用户可通过自然语言交互
- 无需屏幕设备即可获取知识和个性化帮助
PM洞察: 1X的"先交付基础能力,持续OTA升级"策略类似早期Tesla的做法。$499/月的订阅模式降低了尝试门槛,但关键问题是:消费者对家用机器人的期望值管理。如果初始能力太弱,可能导致退订潮。
其他重要玩家 / Other Players
AGIBOT(智元机器人,上海)
2026年3月30日达成里程碑: 第10,000台人形机器人下线。
- 从5,000台到10,000台仅用了3个月
- 是全球首批达到此规模的机器人公司之一
- 部署场景:物流、零售、酒店、教育、早期工业
- 全球扩展中:欧洲、北美、亚洲均有部署
- 2025年总销量5,168台,与Unitree争夺中国市场第一
Unitree Robotics(宇树科技,杭州)
2026年最新动态:
- 2026年3月申请上海IPO,融资$6.1亿
- 2025年营收17.08亿人民币,同比增长335%
- 预计2026年中上市——成为中国首家上市人形机器人公司
- 2026年目标出货20,000台(2025年为5,500台)
- 开源了UnifoLM-VLA-0视觉语言动作模型
- G1定价$13,500、H2定价$29,900、R1定价$4,900-$5,900
Agility Robotics (Digit)
- 身高5'9",体重143磅,负载35磅
- 定价约$250,000(企业试点)
- 通过了OSHA安全认证——商业人形机器人首次
- 在GXO Logistics运营的Spanx仓库中部署
- 注意:Amazon已取消与Agility的Digit合作项目
CES 2026上的其他亮点
| 公司 | 产品 | 特点 | 价格 |
|---|---|---|---|
| EngineAI | T800 | 镁铝合金框架,450Nm关节力矩,NVIDIA Jetson Thor | $25,000 |
| LG | CLOiD | 双7-DoF手臂,五指手,家用定位 | 未公开 |
| Unitree | G1/H2/R1 | 现场展示高速武术动作和连续后空翻 | $4,900起 |
机器人基础模型 / Robot Foundation Models
为什么机器人需要基础模型?
传统机器人编程是"一个任务写一套代码"。基础模型的突破在于:一个模型控制多种机器人完成多种任务。
┌─────────────────────────────────────────────────────────────┐
│ 传统方式 vs 基础模型方式 │
│ │
│ 传统方式: │
│ ┌──────┐ ┌──────┐ ┌──────┐ │
│ │任务A │ │任务B │ │任务C │ │
│ │专用代码│ │专用代码│ │专用代码│ │
│ └──┬───┘ └──┬───┘ └──┬───┘ │
│ │ │ │ │
│ ┌──┴───┐ ┌──┴───┐ ┌──┴───┐ │
│ │机器人A│ │机器人A│ │机器人A│ │
│ └──────┘ └──────┘ └──────┘ │
│ │
│ 基础模型方式: │
│ ┌─────────────────────────────────────────┐ │
│ │ Robot Foundation Model (VLA) │ │
│ │ "折叠衣服" / "搬运箱子" / "清洁厨房" │ │
│ └────────────┬────────────────────────────┘ │
│ │ 一个模型 │
│ ┌──────────┼──────────┐ │
│ ▼ ▼ ▼ │
│ ┌──────┐ ┌──────┐ ┌──────┐ │
│ │机器人A│ │机器人B│ │机器人C│ ← 跨形态迁移 │
│ └──────┘ └──────┘ └──────┘ │
└─────────────────────────────────────────────────────────────┘
2026年主要机器人基础模型
1. Google DeepMind — Gemini Robotics
最重要的机器人基础模型家族:
| 模型 | 类型 | 能力 |
|---|---|---|
| Gemini Robotics 1.5 | VLA (Vision-Language-Action) | 直接控制机器人,最强泛化能力 |
| Gemini Robotics-ER 1.5 | VLM (Embodied Reasoning) | 物理世界推理、工具调用、多步规划 |
核心特点:
- 基于Gemini 2.0构建,专为机器人设计
- 任何形状和尺寸的机器人都可使用
- 支持开放词汇指令——"帮我把桌上红色的东西收到抽屉里"
- 对物体类型、位置变化、未见过的环境具有鲁棒性
- 与Boston Dynamics Atlas深度集成
2. NVIDIA — GR00T系列
NVIDIA的机器人基础模型生态:
| 模型 | 状态 | 特点 |
|---|---|---|
| GR00T N1.7 | 早期访问 + 商业授权 | 通用机器人技能,高级灵巧控制 |
| GR00T N2 (预览) | 2026年底发布 | 基于DreamZero世界动作模型架构 |
GR00T N2的突破:
- 新任务新环境成功率是现有VLA模型的2倍以上
- 基于全新的**世界动作模型(World Action Model)**架构
- 与Cosmos世界模型和Isaac仿真深度集成
3. Physical Intelligence — π0 / π0.5
最受关注的机器人AI创业公司:
| 模型 | 特点 |
|---|---|
| π0 | 首个通用策略模型,流匹配架构,已开源 |
| π0.5 | 开放世界泛化,能在从未见过的家庭中清洁厨房和卧室 |
核心突破:
- 跨任务通用性: 折叠衣服、打包箱子、清理桌面等
- 流匹配(Flow Matching)架构: 生成平滑自然的运动轨迹
- π0.5的关键能力: 在完全陌生的环境中执行任务
- 公司融资超过**$4亿**
4. Skild AI — Skild Brain
2026年1月融资$14亿,估值$140亿:
| 特点 | 说明 |
|---|---|
| 全形态适配 | 一个模型控制任何机器人 |
| 自适应 | 不需重训即可适应肢体损失、轮子卡住、负载变化 |
| 数据来源 | 互联网人类视频 + 物理仿真 |
| 投资方 | SoftBank(领投)、NVIDIA、Jeff Bezos、Samsung、LG |
由CMU教授Deepak Pathak和Abhinav Gupta创办,总融资超过$20亿。
5. 其他重要模型
| 模型 | 来源 | 特点 |
|---|---|---|
| Octo | UC Berkeley | 开源,27M-93M参数,800K机器人数据集预训练 |
| OpenVLA | 开源社区 | 基于LLaMA的开源VLA |
| GEN-1 | Generalist AI | 2026年4月发布的通用具身基础模型 |
| UnifoLM-VLA-0 | Unitree | 开源VLA,支持G1自然语言指令 |
模型对比总览
┌──────────────────────────────────────────────────────────────┐
│ 2026 机器人基础模型格局 │
│ │
│ 闭源/商业: │
│ ┌─────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │Gemini │ │GR00T N1.7/N2 │ │Skild Brain │ │
│ │Robotics 1.5 │ │(NVIDIA) │ │($14B估值) │ │
│ │(Google) │ │ │ │ │ │
│ │最强VLA │ │商业授权 │ │全形态适配 │ │
│ └─────────────┘ └──────────────┘ └──────────────┘ │
│ │
│ 开源/半开源: │
│ ┌─────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │π0 / π0.5 │ │Octo │ │OpenVLA │ │
│ │(Physical │ │(UC Berkeley) │ │(社区) │ │
│ │Intelligence)│ │ │ │ │ │
│ │开源+商业 │ │完全开源 │ │完全开源 │ │
│ └─────────────┘ └──────────────┘ └──────────────┘ │
│ │
│ 核心趋势: VLA (Vision-Language-Action) 成为主流架构 │
│ - 输入: 视觉 + 自然语言指令 │
│ - 输出: 机器人关节动作序列 │
│ - 频率: 50-200 Hz 实时控制 │
└──────────────────────────────────────────────────────────────┘
技术栈 / Technology Stack
Physical AI完整技术栈
┌───────────────────────────────────────────────────────────────────┐
│ Physical AI 技术栈全景 │
│ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 应用层 Application │ │
│ │ 制造/物流/家庭/医疗/零售/农业/建筑/巡检 │ │
│ └──────────────────────────┬──────────────────────────────────┘ │
│ │ │
│ ┌──────────────────────────┴──────────────────────────────────┐ │
│ │ AI大脑层 AI Brain │ │
│ │ ┌─────────────┐ ┌──────────────┐ ┌───────────────────┐ │ │
│ │ │ 感知模块 │ │ 规划模块 │ │ 控制模块 │ │ │
│ │ │ Perception │ │ Planning │ │ Control │ │ │
│ │ │ │ │ │ │ │ │ │
│ │ │ - 3D视觉 │ │ - LLM任务分解 │ │ - VLA端到端 │ │ │
│ │ │ - 物体识别 │ │ - 运动规划 │ │ - 强化学习策略 │ │ │
│ │ │ - SLAM定位 │ │ - 路径规划 │ │ - 模仿学习 │ │ │
│ │ │ - 触觉感知 │ │ - 抓取规划 │ │ - 力/阻抗控制 │ │ │
│ │ │ - 深度估计 │ │ - 世界模型 │ │ - 关节PD控制 │ │ │
│ │ └─────────────┘ └──────────────┘ └───────────────────┘ │ │
│ └──────────────────────────┬──────────────────────────────────┘ │
│ │ │
│ ┌──────────────────────────┴──────────────────────────────────┐ │
│ │ 仿真层 Simulation │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────────┐ │ │
│ │ │ NVIDIA Isaac │ │ MuJoCo │ │ Cosmos世界模型 │ │ │
│ │ │ Lab 3.0 │ │ (Google) │ │ (NVIDIA) │ │ │
│ │ │ │ │ │ │ │ │ │
│ │ │ Newton物理 │ │ 接触动力学 │ │ 合成训练数据 │ │ │
│ │ │ 引擎 1.0 │ │ 高精度仿真 │ │ Sim-to-Real │ │ │
│ │ │ DGX级训练 │ │ 轻量级 │ │ 场景生成 │ │ │
│ │ └──────────────┘ └──────────────┘ └──────────────────┘ │ │
│ └──────────────────────────┬──────────────────────────────────┘ │
│ │ │
│ ┌──────────────────────────┴──────────────────────────────────┐ │
│ │ 硬件层 Hardware │ │
│ │ ┌───────────┐ ┌───────────┐ ┌──────────┐ ┌──────────┐ │ │
│ │ │ 计算芯片 │ │ 传感器 │ │ 执行器 │ │ 机械结构 │ │ │
│ │ │ │ │ │ │ │ │ │ │ │
│ │ │ Jetson │ │ RGB-D相机 │ │ 电机 │ │ 关节 │ │ │
│ │ │ Thor │ │ LiDAR │ │ 液压 │ │ 腱驱动 │ │ │
│ │ │ (2000TOPS)│ │ IMU │ │ 气动 │ │ 差速器 │ │ │
│ │ │ Orin │ │ 力/扭矩 │ │ 谐波减速 │ │ 框架 │ │ │
│ │ │ 定制ASIC │ │ 触觉阵列 │ │ 直驱 │ │ 外壳 │ │ │
│ │ └───────────┘ └───────────┘ └──────────┘ └──────────┘ │ │
│ └─────────────────────────────────────────────────────────────┘ │
└───────────────────────────────────────────────────────────────────┘
感知层 Perception
机器人需要"看到"和"感受到"物理世界:
| 技术 | 用途 | 2026年趋势 |
|---|---|---|
| 3D视觉 | 物体识别、姿态估计 | VLM直接从RGB预测深度和语义 |
| LiDAR | 环境建图、避障 | 固态LiDAR成本降至$100以下 |
| 触觉传感 | 力度感知、滑动检测 | GelSight等高分辨率触觉传感 |
| IMU | 姿态平衡、运动估计 | 多传感器融合成为标准 |
| 力/扭矩传感器 | 接触力检测 | 内置于每个关节 |
规划层 Planning
将高级指令分解为可执行的动作序列:
用户指令: "帮我把厨房收拾干净"
│
▼
┌────────────────────────────┐
│ LLM 任务分解 (Gemini-ER) │
│ 1. 识别桌上的脏盘子 │
│ 2. 把盘子放进洗碗机 │
│ 3. 擦拭台面 │
│ 4. 整理散落的物品到抽屉 │
└────────────┬───────────────┘
│
▼
┌────────────────────────────┐
│ 运动规划 Motion Planning │
│ - 路径规划 (避障) │
│ - 抓取规划 (物体几何) │
│ - 力规划 (盘子不能碎) │
└────────────┬───────────────┘
│
▼
┌────────────────────────────┐
│ VLA 执行 (200Hz控制) │
│ - 关节角度序列 │
│ - 力矩输出 │
│ - 实时视觉反馈 │
└────────────────────────────┘
控制层 Control
| 方法 | 说明 | 代表 |
|---|---|---|
| 端到端VLA | 视觉直接到动作,无中间表示 | π0, Gemini Robotics |
| 强化学习 (RL) | 仿真中学习最优策略 | Isaac Lab 3.0 |
| 模仿学习 | 从人类演示中学习 | Figure Helix 02 |
| 混合控制 | 高层VLA + 底层PD控制器 | 大多数实际部署 |
仿真层 Simulation — NVIDIA全栈生态
GTC 2026上,NVIDIA展示了机器人仿真的完整生态:
┌──────────────────────────────────────────────────────────┐
│ NVIDIA Physical AI 全栈 (GTC 2026) │
│ │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Cosmos 3 — 统一世界基础模型 │ │
│ │ - 机器人智能的第一个统一世界基础模型 │ │
│ │ - 合成训练数据生成 │ │
│ │ - 场景理解与物理推理 │ │
│ └──────────────────────┬───────────────────────────┘ │
│ │ │
│ ┌──────────────────────┴───────────────────────────┐ │
│ │ GR00T N1.7/N2 — 机器人基础模型 │ │
│ │ - N1.7: 商业授权,灵巧控制 (EA) │ │
│ │ - N2: 下一代,世界动作模型架构 (2026末) │ │
│ └──────────────────────┬───────────────────────────┘ │
│ │ │
│ ┌──────────────────────┴───────────────────────────┐ │
│ │ Isaac Lab 3.0 — 机器人训练平台 │ │
│ │ - Newton物理引擎 1.0 (与Google DeepMind共研) │ │
│ │ - 强化学习 + 复杂灵巧任务 │ │
│ │ - DGX级基础设施大规模训练 │ │
│ └──────────────────────┬───────────────────────────┘ │
│ │ │
│ │ 合作伙伴: ABB, AGIBOT, Agility, FANUC, Figure, │ │
│ │ Hexagon, KUKA, Medtronic, Skild AI, UR, YASKAWA │ │
└──────────────────────────────────────────────────────────┘
Newton物理引擎1.0 是关键新组件:
- 由NVIDIA、Google DeepMind和Disney Research共同开发
- 开源发布
- 支持复杂接触动力学和灵巧操作仿真
- 使大规模RL训练成为可能
应用场景 / Applications
2026年真实 vs 炒作 评估
┌────────────────────────────────────────────────────────────┐
│ Physical AI 应用场景成熟度评估 (2026年4月) │
│ │
│ 已商业化 (Revenue-generating) │
│ ██████████████████████ 制造业 (BMW/Figure, Hyundai/Atlas) │
│ ████████████████████ 仓储物流 (GXO/Digit, Amazon AMR) │
│ ████████████████ 手术辅助 (Medtronic/CMR Surgical) │
│ │
│ 规模化试点 (Scaled Pilots) │
│ ██████████████ 零售/酒店 (AGIBOT 1万台部署) │
│ ████████████ 工业巡检 │
│ ██████████ 农业 │
│ │
│ 早期探索 (Early Stage) │
│ ████████ 家庭服务 (1X NEO 开始交付) │
│ ██████ 建筑 │
│ ████ 教育 │
│ │
│ 概念验证 (PoC) │
│ ████ 老年护理 │
│ ██ 灾难救援 │
└────────────────────────────────────────────────────────────┘
场景一:制造业(最成熟)
Figure 02 @ BMW案例:
- 在汽车装配线上工作1,250+小时
- 参与30,000辆车的生产
- 执行物料搬运、零件放置等任务
- 硬件故障率极低
Atlas @ Hyundai:
- 部署在Hyundai机器人元工厂
- 50kg负载、2.3m臂展适合重型任务
- 自主换电保证连续作业
为什么制造业先成熟?
- 环境半结构化——不需要完全开放世界泛化
- ROI可量化——人工成本直接对比
- 安全边界清晰——可以设置安全围栏
- 任务重复性高——适合当前AI能力
场景二:仓储物流
| 公司/产品 | 部署场景 | 状态 |
|---|---|---|
| Agility Digit | GXO/Spanx仓库 | 商业运营中 |
| AGIBOT | 全球物流中心 | 大规模部署 |
| Amazon自研 | 自有仓库 | 持续投入(但取消了Digit合作) |
| Unitree H2 | 工业场景 | 试点扩展中 |
Digit在Spanx设施的具体工作:将容器从存储架搬到传送带——这是对人类工效学挑战最大的重复性任务。
场景三:家庭服务(早期但最具想象力)
1X NEO代表了这个方向的先锋:
- $20,000/$499月的价格首次让家用机器人成为可能
- 但初期能力有限——浇花、卸洗碗机、基础清洁
- 需要用户参与"教学"来拓展能力
- 真正的价值在于持续OTA升级的潜力
场景四:医疗手术
GTC 2026上,Medtronic和CMR Surgical作为NVIDIA Physical AI合作伙伴被重点提及:
- 手术机器人需要极高精度(亚毫米级)
- AI辅助规划和实时导航
- 监管要求最严格,但一旦通过认证,竞争壁垒极高
商业与投资 / Business & Investment
2026年投资格局
┌──────────────────────────────────────────────────────────────┐
│ 2026 Physical AI / 机器人投资格局 │
│ │
│ 融资排行 (2024-2026累计): │
│ │
│ Skild AI ████████████████████████ $2.0B+ ($14B估值) │
│ Figure AI █████████████████████ $1.0B+ ($39B估值) │
│ 1X Tech ████████████ $500M+ │
│ Physical Int. ████████ $400M+ │
│ Agility ██████ $250M+ │
│ AGIBOT ██████ 未披露 (国资背景) │
│ Unitree ████ ($610M IPO申请中) 高速增长 │
│ │
│ Tesla Optimus: 内部投资,不计入VC——但Giga Texas工厂 │
│ 投资规模可能是上述总和的数倍 │
│ │
│ 主要投资方: │
│ - NVIDIA (几乎投了所有头部公司) │
│ - SoftBank (Skild AI领投) │
│ - Jeff Bezos (Figure AI, Skild AI) │
│ - OpenAI (1X Technologies) │
│ - Samsung, LG (Skild AI) │
│ - Microsoft (Figure AI) │
│ - Hyundai (Boston Dynamics母公司) │
│ - Google (DeepMind + Boston Dynamics合作) │
└──────────────────────────────────────────────────────────────┘
市场规模预测
| 来源 | 2026年 | 2030年 | 2034年 | 2050年 |
|---|---|---|---|---|
| Markets & Markets | ~$4-5B | $15.3B | - | - |
| SkyQuest | $6.2B | - | $165B | - |
| Morgan Stanley | - | - | - | $5T |
| CAGR | - | 39.2% (到2030) | - | - |
ABI Research预测2026-2027年是人形机器人市场的拐点——监管、安全和ROI问题将在这个时间窗口基本解决。
商业模式分析
┌──────────────────────────────────────────────────────────────┐
│ Physical AI 商业模式对比 │
│ │
│ 1. 硬件销售 (Traditional Sale) │
│ ├── 一次性购买: $20K-$250K │
│ ├── 代表: Unitree G1 ($13,500), 1X NEO ($20,000) │
│ ├── 优点: 高客单价、产权清晰 │
│ └── 缺点: 售后维护成本高、升级困难 │
│ │
│ 2. 机器人即服务 RaaS (Robot-as-a-Service) │
│ ├── 月费/年费: $499-$5,000/月 │
│ ├── 代表: 1X NEO ($499/月), Boston Dynamics (企业合约) │
│ ├── 优点: 降低用户门槛、持续收入、快速迭代 │
│ └── 缺点: 资金回收周期长、运维压力大 │
│ │
│ 3. 平台+生态 (Platform Play) │
│ ├── 提供AI模型+仿真工具,收取许可费 │
│ ├── 代表: NVIDIA (Isaac/GR00T), Skild AI (Skild Brain) │
│ ├── 优点: 轻资产、规模效应强 │
│ └── 缺点: 依赖硬件合作伙伴 │
│ │
│ 4. 垂直整合 (Vertical Integration) │
│ ├── 自研硬件+AI+生产+部署 │
│ ├── 代表: Tesla Optimus, Figure AI │
│ ├── 优点: 端到端优化、数据飞轮 │
│ └── 缺点: 资本密集、风险集中 │
│ │
│ 2026趋势: RaaS + 平台模式在企业市场占主导 │
│ 硬件销售在消费市场获得初步验证 │
└──────────────────────────────────────────────────────────────┘
中国 vs 美国竞争格局
| 维度 | 美国阵营 | 中国阵营 |
|---|---|---|
| 头部公司 | Boston Dynamics, Figure, Tesla, 1X | AGIBOT, Unitree, UBTECH |
| AI模型 | Gemini Robotics, GR00T, π0 | UnifoLM-VLA-0 (开源) |
| 量产能力 | 规划中/小批量 | AGIBOT已1万台、Unitree目标2万台 |
| 价格 | 多数>$25K | G1 $13,500, R1 $4,900 |
| 政策支持 | 市场驱动 | 国家标准制定、国资投入 |
| 优势 | AI模型领先、品牌溢价 | 供应链成本、规模化速度 |
2026年3月,中国发布了人形机器人国家标准,这可能改变全球产业格局——通过标准化加速供应链成熟,进一步压低成本。
关键技术挑战 / Key Technical Challenges
2026年仍未解决的核心问题
| 挑战 | 当前状态 | 解决时间预估 |
|---|---|---|
| 长时间自主 | 4-5小时续航,需要自主换电 | 2027-2028 (全固态电池) |
| 开放世界泛化 | π0.5初步验证,但成功率不高 | 2027-2029 |
| 精细操作 | 能抓取但难以处理柔性物体 | 2026-2028 |
| 人机安全 | Digit首通OSHA,但标准不完善 | 2026-2027 (标准制定中) |
| Sim-to-Real差距 | Newton引擎大幅缩小但仍存在 | 持续改进 |
| 成本 | $13,500-$250,000 | 2027-2028 (<$10,000) |
| 可靠性 | Figure 1,250小时"极少故障" | 需要更多数据 |
Sim-to-Real: 从虚拟到现实的鸿沟
这是Physical AI最核心的技术挑战之一:
┌───────────────────────────────────────────────────────┐
│ Sim-to-Real Pipeline │
│ │
│ 仿真环境 (Isaac Lab 3.0) │
│ ┌────────────────────────────────────┐ │
│ │ 1. 创建数字孪生场景 │ │
│ │ 2. 域随机化 (Domain Randomization) │ │
│ │ - 光照/纹理/物理参数随机 │ │
│ │ 3. 大规模并行RL训练 │ │
│ │ - 数千个环境同时运行 │ │
│ │ 4. Cosmos合成数据增强 │ │
│ └──────────────┬─────────────────────┘ │
│ │ │
│ ▼ "Reality Gap" — 核心挑战 │
│ ┌────────────────────────────────────┐ │
│ │ 仿真中表现好 ≠ 现实中表现好 │ │
│ │ - 接触力学差异 │ │
│ │ - 传感器噪声 │ │
│ │ - 柔性物体建模困难 │ │
│ │ - 光照和反射差异 │ │
│ └──────────────┬─────────────────────┘ │
│ │ │
│ ▼ │
│ 真实世界 (Real Deployment) │
│ ┌────────────────────────────────────┐ │
│ │ - 少量真实数据微调 │ │
│ │ - 在线适应和持续学习 │ │
│ │ - 人类反馈修正 │ │
│ └────────────────────────────────────┘ │
│ │
│ 2026进展: Newton物理引擎 + Cosmos世界模型 │
│ 显著缩小了Reality Gap,但尚未完全消除 │
└───────────────────────────────────────────────────────┘
数据飞轮 / Data Flywheel
Physical AI的核心护城河
与Digital AI的文本数据不同,Physical AI数据极度稀缺且获取成本高。谁先建立数据飞轮,谁就拥有不可逾越的优势。
┌──────────────────────────────────────────────────────────┐
│ Physical AI 数据飞轮 │
│ │
│ ┌──────────────┐ │
│ │ 部署更多机器人 │ ◄─────────────┐ │
│ └──────┬───────┘ │ │
│ │ │ │
│ ▼ │ │
│ ┌──────────────┐ │ │
│ │ 采集真实世界 │ │ │
│ │ 交互数据 │ │ │
│ └──────┬───────┘ │ │
│ │ │ │
│ ▼ │ │
│ ┌──────────────┐ │ │
│ │ 训练更好的 │ │ │
│ │ VLA模型 │ │ │
│ └──────┬───────┘ │ │
│ │ │ │
│ ▼ │ │
│ ┌──────────────┐ │ │
│ │ 机器人更智能 │───────────────┘ │
│ │ → 更多客户 │ │
│ └──────────────┘ │
│ │
│ 各公司数据飞轮状态: │
│ Tesla Optimus: 自有工厂 → Gen3数据采集 → 最大规模潜力 │
│ Figure AI: BMW产线 → 1,250小时 → 指导Figure 03设计 │
│ AGIBOT: 1万台部署 → 全球使用数据 → 快速迭代 │
│ Unitree: 开源模型 → 社区贡献数据 → 生态飞轮 │
└──────────────────────────────────────────────────────────┘
与Web3/DeFi的交叉 / Intersection with Web3
Physical AI + Web3 的潜在结合点
| 方向 | 说明 | 代表项目 |
|---|---|---|
| DePIN | 去中心化物理基础设施网络 | Helium, Hivemapper |
| 机器人经济 | 机器人自主拥有钱包、交易 | 概念阶段 |
| 数据市场 | 机器人数据的去中心化交易 | Ocean Protocol |
| 代币激励 | 用Token激励机器人数据贡献 | 早期探索 |
| RaaS支付 | 智能合约自动化RaaS支付 | 概念阶段 |
从PM角度看,Web3 + Physical AI的真正机会在于数据市场——机器人交互数据极度稀缺,如果能建立一个去中心化的机器人数据交易市场,将解决行业最大的瓶颈之一。
面试题 / Interview Questions
Q1: 为什么2026年是Physical AI的爆发元年?
简短回答 (30秒): 2026年三大条件同时成熟:基础模型(Gemini Robotics 1.5 + GR00T商用)、硬件量产(Atlas出货、AGIBOT万台下线)、商业验证(Figure在BMW产线上参与3万辆车生产)。这标志着Physical AI从实验室走向真实商业价值的转折点。
详细回答 (2分钟):
1. 基础模型突破:
- Google DeepMind推出Gemini Robotics 1.5——首个能控制任意形态机器人的通用VLA模型
- NVIDIA GR00T N1.7进入商业授权阶段,N2在GTC 2026上预览
- Physical Intelligence的π0.5首次展示开放世界泛化能力
- Skild AI获$14亿融资,估值$140亿,验证了市场对机器人大脑的信心
2. 硬件量产:
- Boston Dynamics电动Atlas在CES 2026发布,2026全年产能售罄
- AGIBOT在2026年3月达成1万台下线里程碑
- Unitree申请上海IPO,2025年营收增长335%
- Tesla启动Gen 3量产,规划年产百万台
3. 商业验证:
- Figure 02在BMW产线运行1,250+小时,参与3万辆车生产——这是最有说服力的商业化证据
- Agility Digit首次通过OSHA安全认证
- 1X NEO以$20,000/$499月的价格开辟消费市场
4. 仿真平台成熟:
- NVIDIA发布Isaac Lab 3.0 + Newton物理引擎 + Cosmos 3世界模型
- 形成了从仿真训练到真实部署的完整pipeline
- 大幅降低了机器人AI的开发门槛和成本
我的观点: 2026年之于Physical AI,类似2023年ChatGPT之于Digital AI——不是技术从0到1的突破,而是从实验室到商业化的拐点。关键区别在于,Physical AI的商业化路径更长、成本更高,但一旦突破ROI拐点,规模效应会非常惊人。
追问准备:
- Q: 你认为Physical AI的"ChatGPT时刻"会在什么时候到来?
- A: 如果"ChatGPT时刻"指的是普通消费者能直接使用,我认为在2028-2029年左右。1X NEO是先行者,但真正的普及需要价格降到$5,000以下且能力达到"管家级别"。
- Q: 投资人为什么愿意给Skild AI $140亿估值?
- A: 因为Skild Brain的定位是"机器人领域的iOS"——一个模型控制所有机器人。如果成功,相当于掌握了所有机器人的"操作系统"层,这个市场在Morgan Stanley看来到2050年值$5万亿。
Q2: 人形机器人 vs 专用机器人,PM如何取舍?
简短回答 (30秒): 不同场景选择不同。工厂物流等结构化环境中,专用机器人ROI更快;但在家庭、零售等非结构化环境中,人形机器人的通用性和适应性更有价值。PM需要从场景出发而非从技术出发做决策。
详细回答 (2分钟):
人形机器人的优势:
- 环境适配性: 人类世界为人类身体设计(门、楼梯、把手),人形无需改造环境
- 通用性: 一台机器人多种任务(搬运+清洁+巡检)
- 心理接受度: 人类更容易与人形机器人协作
- 基础模型迁移: VLA模型的跨任务泛化在人形上效果最好
专用机器人的优势:
- 效率更高: 针对特定任务优化(如Amazon仓库AMR)
- 成本更低: 不需要复杂的腿部和平衡系统
- 可靠性更高: 更少运动自由度 = 更少故障点
- ROI更清晰: 更容易量化投资回报
PM决策框架:
┌────────────────────────────────────────────┐
│ 选择人形 IF: │
│ ├── 环境为人类设计且难以改造 │
│ ├── 需要多任务灵活切换 │
│ ├── 需要与人类密切协作 │
│ └── 长期总成本 < 多个专用机器人 │
│ │
│ 选择专用 IF: │
│ ├── 任务高度重复和标准化 │
│ ├── 需要超高速/精度/负载 │
│ ├── 环境可以按需改造 │
│ └── 短期ROI是关键决策因素 │
└────────────────────────────────────────────┘
真实案例参考:
- Amazon取消了与Agility的Digit人形机器人合作,转向自研AMR——因为在高度优化的仓库环境中,专用更高效
- BMW选择Figure人形机器人——因为汽车装配线任务多变,环境难以为机器人重新设计
- AGIBOT用人形机器人做零售和酒店——因为这些场景需要面对消费者,人形更有亲和力
追问准备:
- Q: 如果你是一个仓储物流公司的PM,你会选人形还是专用?
- A: 我会做分阶段策略。短期(1-2年)用专用AMR做高频标准任务(如分拣传送),因为ROI立即可见;中期(2-3年)引入人形做非标任务(如装卸异形货物),因为人形的每年能力提升很快;长期看,当人形成本降到与专用机器人持平时,全面转向人形。
Q3: 机器人基础模型的意义是什么?
简短回答 (30秒): 机器人基础模型让一个AI模型能控制多种机器人完成多种任务,就像GPT能处理多种语言任务一样。这彻底改变了机器人开发范式——从"为每个任务写代码"变成"用数据训练通用模型",大幅降低了成本和开发周期。
详细回答 (2分钟):
传统方式的问题:
- 每个机器人、每个任务都需要专门编程
- 开发周期长(数月到数年)
- 无法处理未预见的情况
- 不同机器人之间的知识无法共享
基础模型的三大突破:
-
跨任务泛化:
- π0可以用同一个模型折叠衣服、打包箱子、清理桌面
- Gemini Robotics能理解开放词汇指令并执行
-
跨形态迁移 (Cross-Embodiment):
- Octo在800K多种机器人数据上预训练后,可以直接部署到从未见过的新机器人
- Skild Brain明确以"全形态适配"为核心卖点
-
零样本/少样本学习:
- Figure 02的Helix 02能零样本操控上千种未见过的物体
- 无需为新物体重新收集数据和训练
对产业的影响:
| 维度 | 传统方式 | 基础模型方式 |
|---|---|---|
| 开发时间 | 数月/年 | 数天/周 |
| 新任务适配 | 重新编程 | 自然语言指令或少量示教 |
| 硬件依赖 | 绑定特定硬件 | 跨形态通用 |
| 数据利用 | 各自为战 | 全行业数据共享增益 |
| 市场格局 | 碎片化 | 平台化 (类似Android/iOS) |
为什么这对PM很重要:
- 产品迭代速度加快——新功能可以通过OTA模型更新实现
- 商业模式变化——从卖硬件转向卖"机器人能力"
- 竞争格局变化——硬件差异化减弱,AI和数据成为核心壁垒
- 用户体验变化——用户直接用自然语言"教"机器人新任务
追问准备:
- Q: 基础模型会让所有机器人公司变成"同质化"吗?
- A: 不会,原因有三:1)数据是核心壁垒,Figure在BMW的1,250小时数据别人没有;2)硬件仍有差异化空间(Atlas的56 DoF vs NEO的轻量设计);3)垂直行业know-how很难被模型取代。但确实会让纯硬件公司的护城河减弱。
- Q: 开源模型(Octo/π0)vs 闭源模型(Gemini Robotics),哪个会赢?
- A: 我认为会像LLM领域一样共存。开源模型降低入门门槛、加速创新(Unitree就用了开源VLA),但头部闭源模型在性能上持续领先。对创业公司来说,关键是在开源基础上构建自己的数据壁垒。
Q4: 作为PM,如何评估一个人形机器人产品的市场机会?
评估框架:
┌──────────────────────────────────────────────────────────┐
│ 人形机器人产品市场机会评估框架 │
│ │
│ 1. 任务价值 (Task Value) │
│ ├── 该任务的人工成本是多少? │
│ ├── 任务频次和标准化程度? │
│ └── 机器人完成的质量能达到人类的几成? │
│ │
│ 2. 技术可行性 (Technical Feasibility) │
│ ├── 当前VLA模型能完成吗? │
│ ├── 需要什么级别的灵巧度? │
│ └── 环境结构化程度如何? │
│ │
│ 3. ROI计算 (Return on Investment) │
│ ├── 机器人成本 vs 替代的人工成本 │
│ ├── 回本周期 < 2年才有吸引力 │
│ └── 考虑维护、保险、培训成本 │
│ │
│ 4. 监管与安全 (Regulation & Safety) │
│ ├── 是否需要OSHA等安全认证? │
│ ├── 与人类共存的安全要求? │
│ └── 行业特定监管(如医疗FDA)? │
│ │
│ 5. 规模化潜力 (Scale Potential) │
│ ├── 潜在客户数量? │
│ ├── 能否形成数据飞轮? │
│ └── 网络效应如何? │
└──────────────────────────────────────────────────────────┘
PM视角总结 / PM Takeaways
1. Physical AI是下一个万亿美元市场
Morgan Stanley预测2050年市场规模达$5万亿。2026年是拐点——不是因为技术完美了,而是因为商业验证开始出现(Figure @ BMW, AGIBOT万台下线)。对PM来说,现在是进入这个领域的最佳时机。
2. "AI大脑"和"机器人身体"正在分离
类似于手机行业的Android + 硬件厂商模式,机器人行业正在出现:
- AI平台层: NVIDIA (GR00T/Isaac), Google (Gemini Robotics), Skild AI
- 硬件制造层: Boston Dynamics, Figure, Unitree, AGIBOT
PM需要理解这个分层,因为你的产品策略取决于你在哪一层竞争。
3. 数据飞轮是终极壁垒
Physical AI的数据不像互联网数据那样易得。每一次真实世界的机器人交互都是宝贵的训练数据。Figure在BMW积累的1,250小时数据、Tesla在自家工厂的大规模采集、AGIBOT通过1万台部署获取的全球数据——这些是真正不可复制的竞争优势。
4. 中国速度值得关注
AGIBOT 3个月从5,000台到10,000台、Unitree营收增长335%、中国发布人形机器人国家标准——中国在量产速度和成本控制上的优势可能重塑全球竞争格局。PM需要思考如何在中国的"性价比攻势"下找到差异化定位。
5. 消费级市场尚早但充满想象力
1X NEO以$20,000/$499月的价格率先尝试,但初期能力有限。真正的消费级爆发可能在2028-2029年,届时价格降到$5,000以下且能力达到"实用管家"水平。但现在开始布局、积累数据和用户反馈是正确的策略。
6. 安全和伦理将成为PM的核心考量
当机器人进入家庭和公共空间,安全不再只是工程问题,而是产品设计的核心。Digit首次通过OSHA认证是里程碑,但家用机器人的安全标准尚未建立。PM需要从Day 1就将安全纳入产品设计。
延伸阅读 / Further Reading
- NVIDIA GTC 2026 Physical AI专题
- Boston Dynamics Atlas产品页
- Figure AI新闻中心
- Google DeepMind Gemini Robotics论文
- Physical Intelligence π0.5论文
- Skild AI官网
- Octo开源模型
- NVIDIA Isaac Lab文档
- CES 2026人形机器人盘点 (IEEE Spectrum)
- CES 2026: 9个改变未来的人形机器人
- Morgan Stanley: 人形机器人市场规模预测
- 中国人形机器人量产领先报道
Day 68 完成. Physical AI正在将AI从屏幕背后带入物理世界。2026年是这个领域的"iPhone时刻"——不完美,但足以改变一切。作为PM,理解Physical AI的技术栈、商业模式和竞争格局,将在未来5年成为核心竞争力。