ByteLoom: 生成逼真的人-物交互视频

发布:2025年12月28日 09:38
1分で読める
ArXiv

分析

这篇论文解决了生成逼真的人-物交互(HOI)视频的挑战,这是数字人类和机器人等应用的关键领域。主要贡献是用于保持物体几何一致性的RCM缓存机制,以及用于处理数据稀缺性和减少对手部详细注释依赖的渐进式课程学习方法。 专注于几何一致性和简化的条件设置是迈向更实用和稳健的HOI视频生成的重要一步。

引用

该论文介绍了ByteLoom,一个基于扩散Transformer (DiT) 的框架,它使用简化的条件设置和3D对象输入,生成具有几何一致性对象插图的逼真HOI视频。