面对充满噪音的未来,我们常困于只看结果的思维误区。Nia 和 Miles 将带你拆解 TD 学习如何通过编织经验网,把零散的摸索转化为精准的价值判断,助你在复杂决策中找到最优路径。

TD 学习最神奇的地方在于它会‘自我引导’,它不是等整条路走完才去评价,而是利用相邻状态的估计值来更新当前状态,通过合并那些在空间中交汇的路径,将零散的经验汇聚成一张庞大的可能性网络。
https://distill.pub/2019/paths-perspective-on-value-learning/


两者的核心区别在于如何利用经验来更新对价值的估计。蒙特卡洛方法像是一个“唯结果论”者,它必须等整个序列结束、看到最终回报后,才给路径上的所有步骤打分,这导致它在处理未完成的路径时效率较低且受偶然因素(高方差)影响大。而 TD 学习则采用“自我引导”机制,它不需要走完全程,而是利用相邻状态的估计值来实时更新当前状态。通过合并在空间中交汇的路径,TD 学习能将零散的经验编织成网,从而实现更高的统计效率和更快的收敛速度。
Q-learning 的过度乐观源于它总是选择当前状态下评估价值最高的动作(最大化操作)。当环境奖励中存在噪音或随机干扰时,某个动作可能仅仅因为运气好而获得了一个偶然的高分,Q-learning 会误将这个噪音当成真实的价值,导致估计值严重虚高。为了解决这一问题,研究者提出了“双重 Q 学习”(Double Q-learning),通过引入两套独立的 Q 值表进行交叉验证:一套用于选择动作,另一套用于评估该动作的价值,从而大幅降低同时被噪音欺骗的概率。
虽然 TD 学习通过路径融合提高了效率,但它极度依赖于对“状态相似性”的准确定义。在引入神经网络等函数逼近器时,如果模型错误地将物理距离近但逻辑上不相关的状态(例如隔着一道墙的两个点)归为“附近”,TD 学习会将错误的价值评估迅速扩散到整个路径网络中。相比之下,蒙特卡洛方法因为不进行这种跨路径的推断(不乱连),在认知模型尚不成熟时反而表现得更加稳健。
TD(λ) 是一种将蒙特卡洛方法和 TD 学习结合的折中技术,通过调整参数 λ 的值(在 0 到 1 之间)来平衡两者的优劣。当 λ 为 0 时是纯粹的 TD 学习,λ 为 1 时则是蒙特卡洛方法。在实际操作中,开发者可以根据训练阶段动态调整 λ:在训练初期模型较乱时,偏向蒙特卡洛以避免错误关联带来的偏差;当模型能够准确识别状态特征后,增加 TD 的比例,利用路径融合来加速学习过程。
Criado por ex-alunos da Universidade de Columbia em San Francisco
"Instead of endless scrolling, I just hit play on BeFreed. It saves me so much time."
"I never knew where to start with nonfiction—BeFreed’s book lists turned into podcasts gave me a clear path."
"Perfect balance between learning and entertainment. Finished ‘Thinking, Fast and Slow’ on my commute this week."
"Crazy how much I learned while walking the dog. BeFreed = small habits → big gains."
"Reading used to feel like a chore. Now it’s just part of my lifestyle."
"Feels effortless compared to reading. I’ve finished 6 books this month already."
"BeFreed turned my guilty doomscrolling into something that feels productive and inspiring."
"BeFreed turned my commute into learning time. 20-min podcasts are perfect for finishing books I never had time for."
"BeFreed replaced my podcast queue. Imagine Spotify for books — that’s it. 🙌"
"It is great for me to learn something from the book without reading it."
"The themed book list podcasts help me connect ideas across authors—like a guided audio journey."
"Makes me feel smarter every time before going to work"
Criado por ex-alunos da Universidade de Columbia em San Francisco
