针对机器人难以理解任务好坏的困境,Nia 和 Miles 探讨了 Robometer 如何通过百万级轨迹对比,让机器人在“找不同”中学会自我进化,实现跨场景的通用学习能力。

Robometer 的核心突破是引入了一种“比较”思维,让机器人不再纠结于绝对分数,而是通过对比成功与失败的案例,真正开始理解‘做得好’和‘做得烂’之间的区别。
Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons 给我讲讲这篇论文。


Robometer 是一种为机器人设计的“内心标尺”或奖励模型,旨在帮助机器人理解任务完成的质量。传统的训练方法通常要求机器人根据专家演示来猜测绝对的进度分数(如 0 到 1 之间的一个值),这在处理失败案例时非常困难。而 Robometer 引入了“比较”思维,通过让机器人对比两段视频并判断哪一段做得更好,从而学习“偏好”。这种从绝对打分到优劣对比的转变,使机器人能够更有效地从错误和失败中吸取教训。
Robometer 利用了一个包含 100 万条轨迹的大型数据库(RBM-1M),其中不仅有专家的完美演示,还包含大量失败和表现平庸的案例。它采用“双重目标”训练:一方面学习标准答案,另一方面通过“轨迹比较偏好损失”来对比不同程度的失败。例如,它会学习到“碰到了杯子但没拿稳”要优于“完全没碰到杯子”。此外,研究人员还通过视频回退(模拟倒退状态)和指令负样本(做错任务)等自动化策略,让模型学会识别并“讨厌”这些负面表现。
RBM-1M 数据库涵盖了 21 种不同的机器人形态,包括单臂、双臂、移动机器人甚至人类活动的视频。这种多样性让 Robometer 具备了跨平台的通用性,使其不再局限于特定的硬件或视角,而是学会了理解物理世界中任务进展的通用规律。在实际测试中,这种大规模混合数据的训练让 Robometer 在陌生环境下的奖励识别准确度大幅提升,在区分成功与失败轨迹的评估中相对提升了 32%。
在实战演习中,Robometer 显著提高了机器人的任务成功率。例如,在将玉米放进锅里的强化学习任务中,成功率从 20% 暴涨到了 85%。它解决了传统模型容易出现的“抢跑”问题(即动作未完成就给高分),并能稳健地引导机器人完成多步骤的长距离任务。此外,它还可以作为“星探”从杂乱的数据中检索高质量示范,或作为监控工具通过奖励曲线的异常波动来自动检测机器人故障。
尽管 Robometer 表现出色,但它目前主要依赖视觉感知。这意味着它还无法处理需要力反馈或触觉的精细活儿,例如在黑暗中摸索物体或感知物体的弹性。此外,受限于采样频率(每秒仅观察几帧),它可能会漏掉一些瞬间发生的极快失误。未来的研究方向包括引入更高频率的感知能力、触觉反馈以及更强的物理引擎推理能力。
Criado por ex-alunos da Universidade de Columbia em San Francisco
"Instead of endless scrolling, I just hit play on BeFreed. It saves me so much time."
"I never knew where to start with nonfiction—BeFreed’s book lists turned into podcasts gave me a clear path."
"Perfect balance between learning and entertainment. Finished ‘Thinking, Fast and Slow’ on my commute this week."
"Crazy how much I learned while walking the dog. BeFreed = small habits → big gains."
"Reading used to feel like a chore. Now it’s just part of my lifestyle."
"Feels effortless compared to reading. I’ve finished 6 books this month already."
"BeFreed turned my guilty doomscrolling into something that feels productive and inspiring."
"BeFreed turned my commute into learning time. 20-min podcasts are perfect for finishing books I never had time for."
"BeFreed replaced my podcast queue. Imagine Spotify for books — that’s it. 🙌"
"It is great for me to learn something from the book without reading it."
"The themed book list podcasts help me connect ideas across authors—like a guided audio journey."
"Makes me feel smarter every time before going to work"
Criado por ex-alunos da Universidade de Columbia em San Francisco
