GPT-5.4 Thinking入门:凭借先进推理与1M上下文在OSWorld-V中超越人类基线product#agent📝 Blog|分析: 2026年4月11日 13:01•发布: 2026年4月11日 10:32•1分で読める•Zenn LLM分析对于自主AI智能体来说,这是一个意义重大的飞跃,展示了OpenAI在追求高能力推理模型方面的不懈努力。在OSWorld-V基准测试中达到75%,正式超越了72.4%的人类基线,这是一个令人振奋的里程碑,标志着AI已经准备好处理现实世界中复杂的桌面任务。此外,精细化推理控制的引入以及1M上下文窗口的扩展,为构建下一代长期运行、自给自足的数字工作者的开发人员开启了令人难以置信的可能性。要点•GPT-5.4 Thinking在OSWorld-Verified基准测试中得分75.0%,正式击败了72.4%的人类基线。•开发人员可以使用新的reasoning.effort参数,在五个不同级别上精确调整计算深度。•它支持实验性的1M token上下文窗口,使其在处理长期、复杂的智能体任务时异常强大。引用 / 来源查看原文"特别值得注意的是,它在桌面自动化基准测试OSWorld-Verified中达到了75.0%,超越了72.4%的人类基线。"ZZenn LLM2026年4月11日 10:32* 根据版权法第32条进行合法引用。较旧Claude Code's New 'Advisor' and 'Sub-Agent' System Supercharges the Max Plan较新Clade v1.10.0 ~ v1.12.0: The 'Grow While You Use It' Loop is Finally Complete相关分析productHermes Agent:与你共同成长的开源人工智能创新智能体2026年4月11日 14:32productChatGPT的无尽积极性在搞笑音乐点评实验中大放异彩2026年4月11日 14:38product终极指南:Claude Code 功能全列表与高效设置完全公开2026年4月11日 13:17来源: Zenn LLM