面对机器人只会死记硬背、无法应对环境变化的难题,Nia 和 Miles 探讨了 WorldPlanner 如何通过视觉世界模型与 MCTS 算法,让机器人在动手前先在脑中模拟未来,从而实现从机械模仿到自主思考的跨越。

这种从“行为克隆”到“模型规划”的转变,本质上是让机器人从“背课本”转向了“理解物理规律”,通过构建“脑内剧场”学会了独立思考和预演未来。
WorldPlanner: Monte Carlo Tree Search and MPC with Action-Conditioned Visual World Models 给我讲讲这篇论文


“脑内小剧场”是指机器人内置的“世界模型”。与传统的死记硬背(行为克隆)不同,WorldPlanner 利用扩散模型作为视觉生成器,让机器人在执行动作前先在脑海中模拟预测未来的画面。这种机制允许机器人理解环境的物理规律并预演不同动作的后果,即使环境发生微小变化,它也能通过“预见性”做出调整,而不是直接陷入瘫痪。
该研究最反直觉的地方在于它不需要大量高质量的人类演示数据。机器人只需通过几个小时随意的、甚至有些混乱的“玩耍数据”进行自由探索,就能摸索出世界的物理规律。通过这些数据,机器人学习到了物体间的交互逻辑(例如硬物撞击会移动、软物受压会弯曲),从而构建起能够泛化的世界模型,这种方式极大地降低了数据获取的成本。
WorldPlanner 提供了三种奖励机制来为机器人的表现“打分”。第一种是几何奖励,通过感知物体位置坐标计算距离;第二种是视频奖励,利用算法让模型学习成功视频的规律,判断当前画面与目标的接近程度,这在处理铁链等易变形物体时非常有效;第三种是利用视觉大模型(如 DINOv2)将图像转化为高维向量,通过计算当前画面与目标画面的相似度来衡量进度。
MCTS 充当了机器人的“战略家”,它将可能的动作和画面看作棋步,在脑海中进行深度搜索和模拟。为了防止机器人“胡思乱想”或产生幻觉,WorldPlanner 结合了从玩耍数据中学到的“先验动作策略”,将搜索范围缩小在合理的物理动作内。这种实时组合动作原语的能力,使机器人在处理复杂任务(如推 T 型工具)时的成功率显著高于传统的模仿学习。
为了应对现实中的偏差(如电机抖动或手滑),WorldPlanner 引入了模型预测控制(MPC)作为“执行官”。MPC 采用零阶优化器,每隔 0.4 秒就会根据摄像头拍到的真实画面进行校准。如果发现现实与计划偏离太远,它会果断喊停并让大脑重新规划路线。这种闭环控制机制使机器人能够灵活应对铁链等不可预测物体的状态变化。
Criado por ex-alunos da Universidade de Columbia em San Francisco
"Instead of endless scrolling, I just hit play on BeFreed. It saves me so much time."
"I never knew where to start with nonfiction—BeFreed’s book lists turned into podcasts gave me a clear path."
"Perfect balance between learning and entertainment. Finished ‘Thinking, Fast and Slow’ on my commute this week."
"Crazy how much I learned while walking the dog. BeFreed = small habits → big gains."
"Reading used to feel like a chore. Now it’s just part of my lifestyle."
"Feels effortless compared to reading. I’ve finished 6 books this month already."
"BeFreed turned my guilty doomscrolling into something that feels productive and inspiring."
"BeFreed turned my commute into learning time. 20-min podcasts are perfect for finishing books I never had time for."
"BeFreed replaced my podcast queue. Imagine Spotify for books — that’s it. 🙌"
"It is great for me to learn something from the book without reading it."
"The themed book list podcasts help me connect ideas across authors—like a guided audio journey."
"Makes me feel smarter every time before going to work"
Criado por ex-alunos da Universidade de Columbia em San Francisco
