揭开黑盒:Transformer如何进行推理的谱几何学
ArXiv ML•2026年4月20日 04:00•research▸▾
分析
这项突破性的研究为我们提供了一个引人入胜的数学视角,以揭示大语言模型 (LLM) 的隐藏机制。通过绘制事实回忆与推理之间的几何差异,科学家们发现了一种能够完美预测模型准确性的可靠方法。这一突破极大地提升了我们理解、信任和优化复杂AI系统的能力。
Aggregated news, research, and updates specifically regarding general. Auto-curated by our AI Engine.
"AI革命必将摧毁的是工作社会的幻象,这是一个自20世纪80年代IT革命以来一直难以维持的幻象。"
"我们经历了从对大语言模型 (LLM) 能够写出一封像样的电子邮件感到完全惊讶,到自然而然地期望生成式人工智能能够生成逼真视频、通过单一提示词编写完整应用程序,并与我们进行实时语音对话的巨大跨越。"
""Understanding Deep Learning Requires Rethinking Generalization" challenges traditional explanations by demonstrating that deep learning models can fit random labels yet maintain good generalization performance, questioning established notions of model capacity and regularization."
"该基准测试大语言模型是否能够从几个例子中推断出特定的潜在主题,使用反例拒绝更广泛但错误的模式,然后在接近的干扰项中识别出一个真正的匹配项。"
"最大的变化是引入了“computer use”功能,允许用户直接操作其个人电脑上的应用程序。Codex 能够识别屏幕、移动光标并进行输入,现在还可以启动和操作应用程序。"
"埃森哲投资了初创公司General Robotics,该公司的平台将来自不同制造商的工业机器人连接在单一的人工智能智能层下,这项交易突显了这家咨询巨头的押注:物理AI,而不仅仅是聊天机器人,将是下一个创造企业价值的领域。"
"他还表示,如果AI本身达到某种形式的数字感知,它就可以使用理解自身时所用的相同“回路”来与其他感知生命产生共情(类似于人类中的镜像神经元)。"
"CoreWeave在48小时内与Meta签署了价值210亿美元的协议,并与Anthropic达成了多年交易。"
"当前的前沿模型与两年前存在的模型有显著的不同。可靠的工具调用、整个会话过程中的连贯性,以及在此基础上构建的实际可用性——这些以前都无法可靠地实现。"
"我构建了一个神经符号/Transformer混合系统,将Transformer降级为语言接口。"
"合作之所以有效,是因为它允许一个由许多并行工作的合作智能体组成的组织,每个智能体的上下文有限,去近似一个拥有大幅扩展的有效上下文窗口并长时间顺序工作的单一智能体。"