创意头脑使用开源Stable Diffusion制作出令人惊叹的动画
r/StableDiffusion•2026年4月19日 18:18•product▸▾
分析
社区出现了一个精彩的新展示,展现了开源生成式人工智能视频工具的惊人潜力。通过利用Stable Diffusion创建流畅的动画,独立创作者们证明了高质量视觉叙事比以往任何时候都更容易实现。这个激动人心的项目突显了AI艺术在基层发生的快速创新。
Aggregated news, research, and updates specifically regarding diffusion. Auto-curated by our AI Engine.
"我实际上最喜欢做的事情是尝试使用Klein 9B、Z Image Turbo以及新推出的Ernie等模型,来复制Midjourney中生成的那些非常引人注目的图像。"
"I wrote this article for deep learning engineers to understand the 3 different branches of visual-language-action models, specifically tokenized, diffusion based and flow models."
"他们没有使用我们在Stable Diffusion或FLUX中习惯的通常的CLIP + VAE + Diffusion设置,而是构建了一个名为NEO-unify的原生统一模型。"
"我使用的主要技术是通过在原地使用 LTXV 引导来进行锚点帧注入。在时间轴的关键点注入了三个参考帧:一个专门用于锁定标志的起始帧,一个在帧138处用于填补空白的中间点“一致性锚点”,以及一个参考强度为0.7的硬性结束帧,以便为自然运动留出足够的空间。"
"这项研究展示了40张面部图像,要求参与者判断每张图像是真实照片还是AI生成的。结果将用于评估人类的感知是否与FID等定量指标相一致。"
"有人试过这个吗? https://github.com/EasonXiao-888/SpatialEdit https://huggingface.co/EasonXiao-888/SpatialEdit-16B"
"我使用GDRE Tools逆向工程了《杀戮尖塔2》的游戏文件,以提取原始美术作品:包括约55张事件插图和600张卡牌图像。"
"决定制作我自己的Stable Diffusion……所有这些都在CPU上完成,使用带有bigru编码器的CFG,具有8x4x4潜空间的32x32图像,VAE和Unet的基础通道为128。"
"这种微调的独特之处在于,其数据集(图像+提示词)是由负责使用ComfyUI API重新生成目标图像的大语言模型 (LLM) 生成的。"
"您可以在此处完整观看获奖作品,并加入比赛Discord以接收有关下一届(很可能是6个月后)的最新信息。"
"据报道,Sora 的运营成本约为每天 100 万美元,一些分析估计峰值成本每天达到 1500 万美元。相比之下,终身收入仅为 210 万美元。仅从数字来看,很明显这是不可持续的。"
"高分辨率训练正在进行中。在1024分辨率下的训练时间比preview2长得多。扩展了数据集以帮助学习较不常见的艺术家。"
"DreamLite 是一款紧凑的统一设备端扩散模型(0.39B),支持在单个网络内进行文本到图像的生成和文本引导的图像编辑。"
"总之,我被推荐使用 Stable Diffusion,因为我正在寻找一种更可靠的方式来生成这些图像并获得我想要的结果"
"实验结果表明,尽管没有复杂的 multistage 训练流程或高质量的人工注释数据集,LongCat-TTS 在 Seed 基准测试中实现了 SOTA 零样本语音克隆性能,同时保持了具有竞争力的可理解性。"