面对视频生成中画面闪烁和变形的痛点,Lena 和 Miles 深入拆解了 Diffusion Transformer 的核心逻辑。通过将 Transformer 架构引入扩散模型,你将理解 AI 如何掌握物理规律,实现从“随机抽卡”到精准执导的技术飞跃。

DiT 彻底抛弃了层层缩放的传统结构,将视频看作一组携带信息的时空序列,利用 Transformer 的全局视野在处理长程一致性时展现出降维打击般的优势。
DiT(Diffusion Transformer)是将 Transformer 架构引入扩散模型的新型视频生成架构。传统的 U-Net 架构主要为二维图像设计,在处理视频时往往需要通过添加 3D 卷积核或临时注意力模块来“打补丁”,这容易导致视频出现闪烁或逻辑不连贯。相比之下,DiT 将视频视为由“时空补丁”(Tokens)组成的整体序列,利用 Transformer 的全局自注意力机制,能够同时观察视频的第一帧和最后一帧,从而在保持长程一致性和物理规律模拟方面具有显著优势。
DiT 的物理规律并非由程序员写死的公式驱动,而是通过“世界模型”的概念自学成才。由于 DiT 架构具有极强的可扩展性(Scaling Law),当在大规模、高质量的视频数据上进行训练时,模型会产生“涌现”现象。它通过观察数百万小时的视频,将流体动力学、重力感应和光影折射等现实规律内化为一种直觉。例如,在处理小球碰撞或雨滴折射时,它能根据学到的动量守恒和光学规律预测像素变化,而不仅仅是简单的图像模仿。
这主要受限于算力门槛和生态成熟度。DiT 架构像是一头“算力巨兽”,训练 SOTA 级别的模型需要数千块顶级 GPU 运行数月,成本极高,目前主要是科技巨头在主导。此外,U-Net 拥有非常成熟的开源生态和周边工具(如 LoRA、ControlNet 等),而 DiT 的工具链目前还处于“荒漠期”,开发者缺乏相应的微调工具和控制插件。因此,在静态图像生成领域 U-Net 依然够用,但在追求高逻辑性的视频生成领域,DiT 才是未来的必然选择。
这标志着从“抽卡式生成”向“工程化执导”的范式转移。通过 API 接入,创作者可以精确控制镜头参数(如希区柯克变焦)和语义一致性,极大地提升了广告、短视频和游戏过场动画的生产效率。虽然这会给基础特效和素材剪辑等重复性工作带来职业阵痛,但它也彻底消除了创作的技术门槛。未来的核心竞争力将从“技术手工”转向“想象力”和“叙事能力”,催生出如“世界架构师”等新型职业。
샌프란시스코에서 컬럼비아 대학교 동문들이 만들었습니다
"Instead of endless scrolling, I just hit play on BeFreed. It saves me so much time."
"I never knew where to start with nonfiction—BeFreed’s book lists turned into podcasts gave me a clear path."
"Perfect balance between learning and entertainment. Finished ‘Thinking, Fast and Slow’ on my commute this week."
"Crazy how much I learned while walking the dog. BeFreed = small habits → big gains."
"Reading used to feel like a chore. Now it’s just part of my lifestyle."
"Feels effortless compared to reading. I’ve finished 6 books this month already."
"BeFreed turned my guilty doomscrolling into something that feels productive and inspiring."
"BeFreed turned my commute into learning time. 20-min podcasts are perfect for finishing books I never had time for."
"BeFreed replaced my podcast queue. Imagine Spotify for books — that’s it. 🙌"
"It is great for me to learn something from the book without reading it."
"The themed book list podcasts help me connect ideas across authors—like a guided audio journey."
"Makes me feel smarter every time before going to work"
샌프란시스코에서 컬럼비아 대학교 동문들이 만들었습니다
