论文精读 · OmniRetarget:面向人形机器人全身 Loco-Manipulation 的交互保持型数据生成
TL;DR OmniRetarget 把”人 → 人形机器人”的动作 retargeting 重新表述成一个带硬约束的 Interaction-Mesh 形变能量最小化问题,让 retarget 后的参考动作天然保持人-物-地形之间的接触关系。下游 RL 只用 5 条 reward、4 项 domain randomization、纯本体感知 (proprioceptive) 观测,就能在 Unitree G1 上零样本 sim2real 出 30 秒长程的跑酷+搬箱+爬台子+滚翻+撞墙翻 (wall-flip) 等复杂行为。
Paper: Yang et al., OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction, arXiv:2509.26633v2, 2025. Project: omniretarget.github.io Authors: Lujie Yang, Xiaoyu Huang, Zhen Wu, Angjoo Kanazawa, Pieter Abbeel, Carmelo Sferrazza, C. Karen Liu, Rocky Duan, Guanya Shi · Amazon FAR / MIT / UC Berkeley / Stanford / CMU
1. 背景与动机
1.1 数据瓶颈 (Data Bottleneck)
教人形机器人复杂全身行为的主流范式:retarget 人类动作 → 作为 RL 参考。但这条 pipeline 的瓶颈在 retargeting 本身:
- Embodiment gap(具身差异):人和机器人在比例、关节数、自由度 (DoF) 上差异巨大;
- 常见伪影:foot skating(脚滑)、penetration(穿模)、contact loss(脱离接触);
- 更关键:现有方法只做 keypoint matching,不显式建模人与物体/地形的接触关系,导致 retarget 后机器人手抓不住箱子、脚踩空台阶。
1.2 两种主流路线及缺陷
| 路线 | 代表方法 | 缺陷 |
|---|---|---|
| Online teleoperation(在线遥操作) | OmniH2O, Twist | 劳动密集、难以规模化 |
| Offline retargeting(离线重定向) | PHC, GMR, VideoMimic, IMMA | 软约束/无约束优化,伪影多,缺少 scene interaction |
1.3 已有方法的”通病”
- PHC / GMR:纯 keypoint matching,无 contact 概念 → 物体穿模、手在空气里。
- VideoMimic:用 soft penalty 处理 contact 与 collision → 与 keypoint 项互相冲突,调参敏感。
- IMMA:最接近本文,也用 interaction mesh,但不开源、不考虑关节限位、不考虑物体交互。
- 共同问题:下游 RL 必须靠 大量手工 reward(air time、slipping、contact schedule…)来”补救”低质量参考。
2. 核心贡献 (Contributions)
- 首个同时处理 robot-object-terrain 交互的硬约束 retargeting 框架;
- 系统性的数据增广 (data augmentation) pipeline:从1 段人类示范生成大规模运动学可行轨迹;
- 开源 ~8 小时高质量 retarget 数据集(来源:OMOMO、LAFAN1、自采 MoCap);
- 在 Unitree G1 上零样本 sim2real:30 秒跑酷、3 m/s 快速爬台、爬坡、wall-flip 等。
3. Interaction Mesh:核心思想
3.1 什么是 Interaction Mesh
“Interaction mesh” 是 Ho et al. (SIGGRAPH 2010) 提出的概念:把角色身体关键点 + 物体/环境采样点一起做 Delaunay tetrahedralization(Delaunay 四面体剖分),得到一个体积结构,用以编码各点之间的相对空间关系。
直觉:mesh 就像一个”空间弹簧网”。当人手抓住箱子时,手关节和箱子顶点之间被网格连接;如果 retarget 时强行把这张网映射到机器人身上并保持其”形状”,那么接触关系自然被保留。
3.2 Laplacian Coordinate(拉普拉斯坐标)
对 mesh 中第 \(i\) 个顶点 \(p_{t,i}\),其 Laplacian 坐标定义为该点与其邻居 \(\mathcal{N}(i)\) 的加权差:
\[L(p_{t,i}) = p_{t,i} - \sum_{j \in \mathcal{N}(i)} w_{ij}\, p_{t,j}\]论文使用均匀权重 \(w_{ij}=1/\lvert\mathcal{N}(i)\rvert\)。
3.3 形变能量 (Deformation Energy)
retargeting 的目标是让”机器人 mesh”的 Laplacian 坐标尽量逼近”人 mesh”的 Laplacian 坐标:
\[E_L = \sum_{i}\bigl\| L(p^{\text{source}}_{t,i}) - L(p^{\text{target}}_{t,i}) \bigr\|^2\]形变能量 ≈ “拓扑/相对几何”被保持的程度。最小化 \(E_L\) 就等价于:在容忍机器人体型差异的同时,把人-物-地形之间的相对配置原样搬过来。
4. 硬约束优化公式 (Hard-Constrained Formulation)
4.1 每帧优化
对每个时刻 \(t\),求解机器人配置 \(q_t\)(浮动基姿态 + 全部关节角):
\[\begin{aligned} q_t^\star = \arg\min_{q_t} \; & \sum_i \bigl\| L(p^{\text{source}}_{t,i}) - L(p^{\text{target}}_{t,i}(q_t)) \bigr\|^2 + \|q_t - q_{t-1}\|^2_Q \\ \text{s.t.}\; & \phi_j(q_t) \ge 0,\; \forall j \quad \text{(无碰撞)} \\ & q_{\min} \le q_t \le q_{\max} \quad \text{(关节限位)} \\ & v_{\min}\!\cdot\!dt \le q_t - q_{t-1} \le v_{\max}\!\cdot\!dt \quad \text{(速度限位)} \\ & p^F_t = p^F_{t-1},\; \forall \text{stance foot} \quad \text{(不滑脚)} \end{aligned}\]其中 \(\phi_j\) 是第 \(j\) 对碰撞体的 signed distance;stance foot 判定:水平速度 < 1 cm/s;\(Q\) 是时间平滑权重矩阵。
4.2 求解:Sequential SOCP
该问题非凸。作者采用类似 SQP (Sequential Quadratic Programming) 的策略:每步线性化硬约束、二阶近似目标,求解一个 Second-Order Cone Program (SOCP),并加上信赖域 \(\|dq_n\|_2 \le \varepsilon\)(论文取 \(\varepsilon=0.2\))。
浮动基姿态在 \(\mathbb{S}^3\) 流形上,借助 Drake 的自动微分正确处理 quaternion 导数。warm start:每帧从上一帧最优解开始迭代。
展开:SOCP 公式细节(论文附录 D)
$$ \begin{aligned} dq_n^\star = \arg\min_{dq_n}\; & \|L^{\text{source}} - (J^n_L\, dq_n + \bar{L}^{\text{target}}_n)\|^2 \\ & + \|\bar{q}_n + dq_n - q_{t-1}\|^2_Q \\ \text{s.t.}\; & J^n_\phi \cdot dq_n + \phi_j(\bar{q}_n) \ge 0,\;\forall j \\ & q_{\min} \le \bar{q}_n + dq_n \le q_{\max} \\ & v_{\min}\,dt \le \bar{q}_n + dq_n - q_{t-1} \le v_{\max}\,dt \\ & \|dq_n\|_2 \le \varepsilon \end{aligned} $$4.3 与既有方法的关键差异
| 方法 | 硬约束 | 物体交互 | 地形交互 | 数据增广 | 优化器 |
|---|---|---|---|---|---|
| IMMA | ✓ | ✗ | ✗ | ✗ | QP |
| PHC | ✗ | ✗ | ✗ | ✗ | Gradient Descent |
| GMR | ✗ | ✗ | ✗ | ✗ | Mink (IK) |
| VideoMimic | Soft Penalty | ✗ | ✓ | ✗ | JAX-LM |
| OmniRetarget | ✓ | ✓ | ✓ | ✓ | Sequential SOCP |
5. 数据增广 (Data Augmentation)
因为 retargeting 公式本身可微、可重复求解,所以可以”从单条示范造出一大坨数据”。
5.1 Robot-Object 增广
- 位置/朝向:给物体加初始 offset \(\Delta p_{obj}\)、\(\Delta\theta_{obj}\),并通过指数衰减平滑回归到原始轨迹:
- 物体尺寸:三向缩放(图 4 中把箱子变扁/变长);
- 物体局部坐标 mesh:若在世界坐标系构 mesh,物体旋转 180° 会让 Laplacian 坐标”翻号”导致语义破坏;论文强调必须在物体局部坐标系构 mesh,使 Laplacian 在物体刚体变换下不变。
5.2 Robot-Terrain 增广
- 缩放平台高度与深度(图 4a:0.56 m / 0.70 m / 0.84 m);
- 在台阶表面均匀采样格点加入 mesh,额外约束抬高后脚的稳定接触。
5.3 防退化技巧
若只最小化 mesh 形变,机器人可能”整体跟着物体做刚体平移”——动作没变化。论文加了 anchor 项:用大权重 \(W\) 锁住下半身,让上半身去适应新物体位置:
\[\|q_t - \bar{q}^\star_t\|_W,\quad p^F_0 = p^{F\star}_0 \quad \text{(双脚初始姿态固定)}\]
6. 最小化 RL 训练设置 (Minimal Formulation)
“Reference 干净到不需要 reward 工程”——这是 BeyondMimic 启发的设计理念。OmniRetarget 输出无伪影的参考,于是 RL 只用最少配置就能直接 sim2real。
6.1 观测空间(纯 proprioception)
- Reference Motion:参考关节位/速、骨盆位姿误差;
- Proprioception:骨盆线/角速度、关节位/速;
- Previous Action。
没有任何场景/物体的显式信息——策略全靠跟踪参考轨迹隐式感知世界。对 agile 动作还会 mask 掉骨盆线速度(state estimation 不可靠)。
6.2 仅 5 项奖励
- Body Tracking(DeepMimic 风格,跟踪 body 位姿与速度)
- Object Tracking(如适用,DeepMimic 风格)
- Action Rate(抑制动作突变)
- Soft Joint Limit(关节限位软惩罚)
- Self-Collision(自碰撞 > 1 N 二值惩罚)
权重与超参直接沿用 BeyondMimic,未调参。
6.3 仅 4 项 Domain Randomization
- Torso COM 位置:±0.025 m (x), ±0.05 m (y), ±0.075 m (z);
- 关节默认位置:±0.01 rad;
- Random push:0.3 m/s, 0.78 rad/s(持续 1–3 s);
- Observation noise(朝向 Rot6D、线/角速度、关节位速)。
对比常见 RFI、随机电机 PD、动作延迟等——这里都没用。
6.4 物体 DR
对单条参考随机化物体物理参数:质量 (0.1–2 kg)、COM (±0.08 m)、惯量 (50–150%)、形状 (±10%)。
7. 实验结果
7.1 硬件平台与任务
Unitree G1(部分跨平台到 H1、Booster T1),任务包括:
- Box carrying:从 OMOMO 数据集 retarget;
- Platform climbing:动态爬上 0.9 m 高(70% 机器人身高)的台子;
- Crawling on slope:斜坡爬行;
- 30 秒跑酷长程任务:搬 4.6 kg 椅子 → 当踏板 → 跳上台 → 跃下 → roll 落地(致敬 Boston Dynamics Atlas 演示);
- Wall-flip:~0.5 s 完成空翻,峰值角速度 15 rad/s,线速度 3.5 m/s。
7.2 增广数据的 sim2real 收益
增广数据训出的策略 success rate 79.1%,相比仅用 nominal 的 82.2% 几乎不掉,但覆盖场景大大扩充。对比”只在 RL 训练中 DR 物体形状/位姿”——策略远远无法泛化到 nominal reference 之外。
结论:把多样性放在”参考层”,而不是只放在”RL 的 DR 层”,是更有效的泛化途径。
8. 与 Baseline 的对比
8.1 运动学质量(表 II 摘要)
| 方法 | Penetration Duration ↓ | Max Depth (cm) ↓ | Foot Skating Duration ↓ | Contact Preservation ↑ | RL Success ↑ |
|---|---|---|---|---|---|
| Robot-Object(OMOMO) | |||||
| PHC | 0.68 | 5.11 | 0.05 | 0.96 | 71.28% |
| GMR | 0.83 | 8.50 | 0.02 | 0.99 | 50.83% |
| VideoMimic | 0.60 | 7.48 | 0.12 | 0.77 | 3.85% |
| OmniRetarget | 0.01 | 1.34 | 0 | 0.96 | 82.20% |
| Robot-Terrain(自采 MoCap) | |||||
| PHC | 0.66 | 7.74 | 0.15 | 0.45 | 52.63% |
| GMR | 0.91 | 5.72 | 0.04 | 0.67 | 78.94% |
| VideoMimic | 0.83 | 5.97 | 0.14 | 0.47 | 51.75% |
| OmniRetarget | 0.01 | 1.37 | 0 | 0.72 | 94.73% |
8.2 失败模式可视化(图 7 总结)
- PHC:手腕穿入箱子;
- GMR:手指穿模;
- VideoMimic:手根本没接触到箱子(interaction not preserved);
- OmniRetarget:手贴合箱面,无显著伪影。
8.3 直觉解读
GMR 的 Contact Preservation 在物体任务里最高(0.99)但 RL 成功率反而低(50.83%)——因为它的 keypoint 匹配把人手关键点”硬塞”到机器人尺寸里,造成严重穿模,看似贴合实则物理不合理;而 OmniRetarget 在 contact 和 penetration 上同时达标,这才换来下游 RL 的稳定。
9. 局限与未来工作
- 当前 frame-by-frame 优化:noisy 来源(如 video)下可能不够稳健;未来可做整轨联合优化;
- 偶有微小穿模(来自 SOCP 中约束线性化)——RL 通常能吸收;
- 极端动作(如 wall-flip)仍依赖放宽 termination 阈值 + 移除 foot orientation tracking 等手工调整;
- 未来方向:与 curriculum learning 结合,处理更难的动作;从 video 数据中直接 retarget。
10. 关键启示 (Takeaways)
- 用”对的表示”打败”调参”:Interaction mesh + 硬约束 = 一个能语义无损搬运空间关系的容器。这种”表示选择”消除了下游一连串 reward 调参。
- 数据多样性应放在生成端:把多样性”前移”到 retargeting 阶段,比放在 RL 的 DR 阶段更有泛化效率,且训练目标更稳。
- “Less is more” 的 RL 配方:5 reward + 4 DR + proprioception only,跟 BeyondMimic 的哲学一脉相承:reference 干净到位,RL 就可以朴素。
- Object frame 的 mesh 是细节但关键:在物体局部系而非世界系构 mesh,是支撑”物体位姿增广”成立的几何前提。一个小决定,撑起一大半数据扩展能力。
附:术语速查 (Glossary)
| 术语 | 含义 |
|---|---|
| Retargeting | 把一个角色的动作迁移到另一个体型/拓扑不同的角色(人 → 机器人) |
| Loco-Manipulation | “行走 + 操作”:在移动中同时操纵物体 |
| Interaction Mesh | 由身体关键点 + 环境/物体点共同构成的体积网格,编码相对几何 |
| Laplacian Coordinate | 每个顶点相对邻居加权平均的位移向量,刻画局部几何 |
| SOCP | Second-Order Cone Program,二阶锥规划,凸优化子类 |
| SQP | Sequential Quadratic Programming,序列二次规划 |
| Delaunay Tetrahedralization | 3D 版 Delaunay 三角剖分,用于构 mesh |
| Sim2Real | 仿真训练的策略直接迁移到真实机器人 |
| Domain Randomization (DR) | 训练时随机化物理参数以提升 sim2real 鲁棒性 |
| Proprioception | 本体感知:仅关节角、IMU 等机身传感器信息 |
| Foot Skating | 支撑脚在原地却出现水平位移,retargeting 常见伪影 |
| Contact Preservation | retarget 后是否保留了原始示范的接触事件 |
| DeepMimic | Peng 2018 的经典 motion-imitation RL 框架 |
| BeyondMimic | Liao 2025,强调”reference 干净则 reward 可极简” |