ChatGPT的图像生成AI超越预期:漫画与视频风格画面已达实用水平
ASCII•2026年4月19日 22:00•product▸▾
分析
OpenAI的最新图像生成模型(暂定名为GPT-Image-2)在多模态能力上实现了巨大的飞跃。早期报告显示,其性能现已能与备受赞誉的谷歌“Nano Banana”模型相媲美,甚至在某些方面有所超越。这一突破尤其令创作者感到兴奋,因为AI生成连贯角色模型和复杂分镜的能力,标志着一个实用且高质量数字艺术创作新时代的到来。
Aggregated news, research, and updates specifically regarding image generation. Auto-curated by our AI Engine.
"我提示生成了大约200万年前在地球上漫游的能人。Midjourney似乎是一个很好的工具,可以帮助我们想象祖先的长相。"
"Gemini能够正确使用日文文字,并且经常能准确把握指令的意图,因此在设计生成方面,Gemini的使用率是绝对压倒性的。"
"通过整合 Nano Banana 2 和 Google Photos,Gemini 感觉变得更加贴近用户。它依赖于你的偏好、你喜欢的东西、你通常捕捉的内容以及你倾向的视觉风格,并利用这些上下文为你塑造它所创造的内容。"
"基础模型绝对是SOTA,甚至在美学方面可以轻松地与闭源模型竞争。电影级的质量和色彩分级达到了全新的高度。"
"他们没有使用我们在Stable Diffusion或FLUX中习惯的通常的CLIP + VAE + Diffusion设置,而是构建了一个名为NEO-unify的原生统一模型。"
"这项研究展示了40张面部图像,要求参与者判断每张图像是真实照片还是AI生成的。结果将用于评估人类的感知是否与FID等定量指标相一致。"
"决定制作我自己的Stable Diffusion……所有这些都在CPU上完成,使用带有bigru编码器的CFG,具有8x4x4潜空间的32x32图像,VAE和Unet的基础通道为128。"
"FlowInOne是一个将多模态生成重新表述为纯视觉流的框架,它将所有输入转换为视觉提示,并实现了由单一流匹配模型控制的简洁的“图入图出”流程。"