论文精读 · OmniRetarget：面向人形机器人全身 Loco-Manipulation 的交互保持型数据生成

TL;DR OmniRetarget 把”人 → 人形机器人”的动作 retargeting 重新表述成一个带硬约束的 Interaction-Mesh 形变能量最小化问题，让 retarget 后的参考动作天然保持人-物-地形之间的接触关系。下游 RL 只用 5 条 reward、4 项 domain randomization、纯本体感知 (proprioceptive) 观测，就能在 Unitree G1 上零样本 sim2real 出 30 秒长程的跑酷+搬箱+爬台子+滚翻+撞墙翻 (wall-flip) 等复杂行为。

Paper: Yang et al., OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction, arXiv:2509.26633v2, 2025. Project: omniretarget.github.io Authors: Lujie Yang, Xiaoyu Huang, Zhen Wu, Angjoo Kanazawa, Pieter Abbeel, Carmelo Sferrazza, C. Karen Liu, Rocky Duan, Guanya Shi · Amazon FAR / MIT / UC Berkeley / Stanford / CMU

1. 背景与动机

1.1 数据瓶颈 (Data Bottleneck)

教人形机器人复杂全身行为的主流范式：retarget 人类动作 → 作为 RL 参考。但这条 pipeline 的瓶颈在 retargeting 本身：

Embodiment gap（具身差异）：人和机器人在比例、关节数、自由度 (DoF) 上差异巨大；
常见伪影：foot skating（脚滑）、penetration（穿模）、contact loss（脱离接触）；
更关键：现有方法只做 keypoint matching，不显式建模人与物体/地形的接触关系，导致 retarget 后机器人手抓不住箱子、脚踩空台阶。

1.2 两种主流路线及缺陷

路线	代表方法	缺陷
Online teleoperation（在线遥操作）	OmniH2O, Twist	劳动密集、难以规模化
Offline retargeting（离线重定向）	PHC, GMR, VideoMimic, IMMA	软约束/无约束优化，伪影多，缺少 scene interaction

1.3 已有方法的”通病”

PHC / GMR：纯 keypoint matching，无 contact 概念 → 物体穿模、手在空气里。
VideoMimic：用 soft penalty 处理 contact 与 collision → 与 keypoint 项互相冲突，调参敏感。
IMMA：最接近本文，也用 interaction mesh，但不开源、不考虑关节限位、不考虑物体交互。
共同问题：下游 RL 必须靠 大量手工 reward（air time、slipping、contact schedule…）来”补救”低质量参考。

2. 核心贡献 (Contributions)

首个同时处理 robot-object-terrain 交互的硬约束 retargeting 框架；
系统性的数据增广 (data augmentation) pipeline：从1 段人类示范生成大规模运动学可行轨迹；
开源 ~8 小时高质量 retarget 数据集（来源：OMOMO、LAFAN1、自采 MoCap）；
在 Unitree G1 上零样本 sim2real：30 秒跑酷、3 m/s 快速爬台、爬坡、wall-flip 等。

3. Interaction Mesh：核心思想

3.1 什么是 Interaction Mesh

“Interaction mesh” 是 Ho et al. (SIGGRAPH 2010) 提出的概念：把角色身体关键点 + 物体/环境采样点一起做 Delaunay tetrahedralization（Delaunay 四面体剖分），得到一个体积结构，用以编码各点之间的相对空间关系。

直觉：mesh 就像一个”空间弹簧网”。当人手抓住箱子时，手关节和箱子顶点之间被网格连接；如果 retarget 时强行把这张网映射到机器人身上并保持其”形状”，那么接触关系自然被保留。

3.2 Laplacian Coordinate（拉普拉斯坐标）

对 mesh 中第 $i$ 个顶点 $p_{t,i}$，其 Laplacian 坐标定义为该点与其邻居 $\mathcal{N}(i)$ 的加权差：

\[L(p_{t,i}) = p_{t,i} - \sum_{j \in \mathcal{N}(i)} w_{ij}\, p_{t,j}\]

论文使用均匀权重 $w_{ij}=1/\lvert\mathcal{N}(i)\rvert$。

3.3 形变能量 (Deformation Energy)

retargeting 的目标是让”机器人 mesh”的 Laplacian 坐标尽量逼近”人 mesh”的 Laplacian 坐标：

\[E_L = \sum_{i}\bigl\| L(p^{\text{source}}_{t,i}) - L(p^{\text{target}}_{t,i}) \bigr\|^2\]

形变能量 ≈ “拓扑/相对几何”被保持的程度。最小化 $E_L$ 就等价于：在容忍机器人体型差异的同时，把人-物-地形之间的相对配置原样搬过来。

4. 硬约束优化公式 (Hard-Constrained Formulation)

4.1 每帧优化

对每个时刻 $t$，求解机器人配置 $q_t$（浮动基姿态 + 全部关节角）：

\[\begin{aligned} q_t^\star = \arg\min_{q_t} \; & \sum_i \bigl\| L(p^{\text{source}}_{t,i}) - L(p^{\text{target}}_{t,i}(q_t)) \bigr\|^2 + \|q_t - q_{t-1}\|^2_Q \\ \text{s.t.}\; & \phi_j(q_t) \ge 0,\; \forall j \quad \text{(无碰撞)} \\ & q_{\min} \le q_t \le q_{\max} \quad \text{(关节限位)} \\ & v_{\min}\!\cdot\!dt \le q_t - q_{t-1} \le v_{\max}\!\cdot\!dt \quad \text{(速度限位)} \\ & p^F_t = p^F_{t-1},\; \forall \text{stance foot} \quad \text{(不滑脚)} \end{aligned}\]

其中 $\phi_j$ 是第 $j$ 对碰撞体的 signed distance；stance foot 判定：水平速度 < 1 cm/s；$Q$ 是时间平滑权重矩阵。

4.2 求解：Sequential SOCP

该问题非凸。作者采用类似 SQP (Sequential Quadratic Programming) 的策略：每步线性化硬约束、二阶近似目标，求解一个 Second-Order Cone Program (SOCP)，并加上信赖域 $\|dq_n\|_2 \le \varepsilon$（论文取 $\varepsilon=0.2$）。

浮动基姿态在 $\mathbb{S}^3$ 流形上，借助 Drake 的自动微分正确处理 quaternion 导数。warm start：每帧从上一帧最优解开始迭代。

展开：SOCP 公式细节（论文附录 D）

$$ \begin{aligned} dq_n^\star = \arg\min_{dq_n}\; & \|L^{\text{source}} - (J^n_L\, dq_n + \bar{L}^{\text{target}}_n)\|^2 \\ & + \|\bar{q}_n + dq_n - q_{t-1}\|^2_Q \\ \text{s.t.}\; & J^n_\phi \cdot dq_n + \phi_j(\bar{q}_n) \ge 0,\;\forall j \\ & q_{\min} \le \bar{q}_n + dq_n \le q_{\max} \\ & v_{\min}\,dt \le \bar{q}_n + dq_n - q_{t-1} \le v_{\max}\,dt \\ & \|dq_n\|_2 \le \varepsilon \end{aligned} $$

4.3 与既有方法的关键差异

方法	硬约束	物体交互	地形交互	数据增广	优化器
IMMA	✓	✗	✗	✗	QP
PHC	✗	✗	✗	✗	Gradient Descent
GMR	✗	✗	✗	✗	Mink (IK)
VideoMimic	Soft Penalty	✗	✓	✗	JAX-LM
OmniRetarget	✓	✓	✓	✓	Sequential SOCP

5. 数据增广 (Data Augmentation)

因为 retargeting 公式本身可微、可重复求解，所以可以”从单条示范造出一大坨数据”。

5.1 Robot-Object 增广

位置/朝向：给物体加初始 offset $\Delta p_{obj}$、$\Delta\theta_{obj}$，并通过指数衰减平滑回归到原始轨迹：

\[\tilde{p}_{obj}(t) = \begin{cases} \Delta p + p_{obj}(0) & t \lt t_m \\ \Delta p\, e^{-(t-t_m)/\tau_p} + p_{obj}(t) & t \ge t_m \end{cases}\]

物体尺寸：三向缩放（图 4 中把箱子变扁/变长）；
物体局部坐标 mesh：若在世界坐标系构 mesh，物体旋转 180° 会让 Laplacian 坐标”翻号”导致语义破坏；论文强调必须在物体局部坐标系构 mesh，使 Laplacian 在物体刚体变换下不变。

5.2 Robot-Terrain 增广

缩放平台高度与深度（图 4a：0.56 m / 0.70 m / 0.84 m）；
在台阶表面均匀采样格点加入 mesh，额外约束抬高后脚的稳定接触。

5.3 防退化技巧

若只最小化 mesh 形变，机器人可能”整体跟着物体做刚体平移”——动作没变化。论文加了 anchor 项：用大权重 $W$ 锁住下半身，让上半身去适应新物体位置：
\[\|q_t - \bar{q}^\star_t\|_W,\quad p^F_0 = p^{F\star}_0 \quad \text{（双脚初始姿态固定）}\]

6. 最小化 RL 训练设置 (Minimal Formulation)

“Reference 干净到不需要 reward 工程”——这是 BeyondMimic 启发的设计理念。OmniRetarget 输出无伪影的参考，于是 RL 只用最少配置就能直接 sim2real。

6.1 观测空间（纯 proprioception）

Reference Motion：参考关节位/速、骨盆位姿误差；
Proprioception：骨盆线/角速度、关节位/速；
Previous Action。

没有任何场景/物体的显式信息——策略全靠跟踪参考轨迹隐式感知世界。对 agile 动作还会 mask 掉骨盆线速度（state estimation 不可靠）。

6.2 仅 5 项奖励

Body Tracking（DeepMimic 风格，跟踪 body 位姿与速度）
Object Tracking（如适用，DeepMimic 风格）
Action Rate（抑制动作突变）
Soft Joint Limit（关节限位软惩罚）
Self-Collision（自碰撞 > 1 N 二值惩罚）

权重与超参直接沿用 BeyondMimic，未调参。

6.3 仅 4 项 Domain Randomization

Torso COM 位置：±0.025 m (x), ±0.05 m (y), ±0.075 m (z)；
关节默认位置：±0.01 rad；
Random push：0.3 m/s, 0.78 rad/s（持续 1–3 s）；
Observation noise（朝向 Rot6D、线/角速度、关节位速）。

对比常见 RFI、随机电机 PD、动作延迟等——这里都没用。

6.4 物体 DR

对单条参考随机化物体物理参数：质量 (0.1–2 kg)、COM (±0.08 m)、惯量 (50–150%)、形状 (±10%)。

7. 实验结果

7.1 硬件平台与任务

Unitree G1（部分跨平台到 H1、Booster T1），任务包括：

Box carrying：从 OMOMO 数据集 retarget；
Platform climbing：动态爬上 0.9 m 高（70% 机器人身高）的台子；
Crawling on slope：斜坡爬行；
30 秒跑酷长程任务：搬 4.6 kg 椅子 → 当踏板 → 跳上台 → 跃下 → roll 落地（致敬 Boston Dynamics Atlas 演示）；
Wall-flip：~0.5 s 完成空翻，峰值角速度 15 rad/s，线速度 3.5 m/s。

7.2 增广数据的 sim2real 收益

增广数据训出的策略 success rate 79.1%，相比仅用 nominal 的 82.2% 几乎不掉，但覆盖场景大大扩充。对比”只在 RL 训练中 DR 物体形状/位姿”——策略远远无法泛化到 nominal reference 之外。

结论：把多样性放在”参考层”，而不是只放在”RL 的 DR 层”，是更有效的泛化途径。

8. 与 Baseline 的对比

8.1 运动学质量（表 II 摘要）

方法	Penetration Duration ↓	Max Depth (cm) ↓	Foot Skating Duration ↓	Contact Preservation ↑	RL Success ↑
Robot-Object（OMOMO）
PHC	0.68	5.11	0.05	0.96	71.28%
GMR	0.83	8.50	0.02	0.99	50.83%
VideoMimic	0.60	7.48	0.12	0.77	3.85%
OmniRetarget	0.01	1.34	0	0.96	82.20%
Robot-Terrain（自采 MoCap）
PHC	0.66	7.74	0.15	0.45	52.63%
GMR	0.91	5.72	0.04	0.67	78.94%
VideoMimic	0.83	5.97	0.14	0.47	51.75%
OmniRetarget	0.01	1.37	0	0.72	94.73%

8.2 失败模式可视化（图 7 总结）

PHC：手腕穿入箱子；
GMR：手指穿模；
VideoMimic：手根本没接触到箱子（interaction not preserved）；
OmniRetarget：手贴合箱面，无显著伪影。

8.3 直觉解读

GMR 的 Contact Preservation 在物体任务里最高（0.99）但 RL 成功率反而低（50.83%）——因为它的 keypoint 匹配把人手关键点”硬塞”到机器人尺寸里，造成严重穿模，看似贴合实则物理不合理；而 OmniRetarget 在 contact 和 penetration 上同时达标，这才换来下游 RL 的稳定。

9. 局限与未来工作

当前 frame-by-frame 优化：noisy 来源（如 video）下可能不够稳健；未来可做整轨联合优化；
偶有微小穿模（来自 SOCP 中约束线性化）——RL 通常能吸收；
极端动作（如 wall-flip）仍依赖放宽 termination 阈值 + 移除 foot orientation tracking 等手工调整；
未来方向：与 curriculum learning 结合，处理更难的动作；从 video 数据中直接 retarget。

10. 关键启示 (Takeaways)

用”对的表示”打败”调参”：Interaction mesh + 硬约束 = 一个能语义无损搬运空间关系的容器。这种”表示选择”消除了下游一连串 reward 调参。
数据多样性应放在生成端：把多样性”前移”到 retargeting 阶段，比放在 RL 的 DR 阶段更有泛化效率，且训练目标更稳。
“Less is more” 的 RL 配方：5 reward + 4 DR + proprioception only，跟 BeyondMimic 的哲学一脉相承：reference 干净到位，RL 就可以朴素。
Object frame 的 mesh 是细节但关键：在物体局部系而非世界系构 mesh，是支撑”物体位姿增广”成立的几何前提。一个小决定，撑起一大半数据扩展能力。

附：术语速查 (Glossary)

术语	含义
Retargeting	把一个角色的动作迁移到另一个体型/拓扑不同的角色（人 → 机器人）
Loco-Manipulation	“行走 + 操作”：在移动中同时操纵物体
Interaction Mesh	由身体关键点 + 环境/物体点共同构成的体积网格，编码相对几何
Laplacian Coordinate	每个顶点相对邻居加权平均的位移向量，刻画局部几何
SOCP	Second-Order Cone Program，二阶锥规划，凸优化子类
SQP	Sequential Quadratic Programming，序列二次规划
Delaunay Tetrahedralization	3D 版 Delaunay 三角剖分，用于构 mesh
Sim2Real	仿真训练的策略直接迁移到真实机器人
Domain Randomization (DR)	训练时随机化物理参数以提升 sim2real 鲁棒性
Proprioception	本体感知：仅关节角、IMU 等机身传感器信息
Foot Skating	支撑脚在原地却出现水平位移，retargeting 常见伪影
Contact Preservation	retarget 后是否保留了原始示范的接触事件
DeepMimic	Peng 2018 的经典 motion-imitation RL 框架
BeyondMimic	Liao 2025，强调”reference 干净则 reward 可极简”