揭开黑盒:Transformer如何进行推理的谱几何学
ArXiv ML•2026年4月20日 04:00•research▸▾
分析
这项突破性的研究为我们提供了一个引人入胜的数学视角,以揭示大语言模型 (LLM) 的隐藏机制。通过绘制事实回忆与推理之间的几何差异,科学家们发现了一种能够完美预测模型准确性的可靠方法。这一突破极大地提升了我们理解、信任和优化复杂AI系统的能力。
Aggregated news, research, and updates specifically regarding artificial general intelligence (agi). Auto-curated by our AI Engine.
"AI革命必将摧毁的是工作社会的幻象,这是一个自20世纪80年代IT革命以来一直难以维持的幻象。"
"我们经历了从对大语言模型 (LLM) 能够写出一封像样的电子邮件感到完全惊讶,到自然而然地期望生成式人工智能能够生成逼真视频、通过单一提示词编写完整应用程序,并与我们进行实时语音对话的巨大跨越。"
"最大的变化是引入了“computer use”功能,允许用户直接操作其个人电脑上的应用程序。Codex 能够识别屏幕、移动光标并进行输入,现在还可以启动和操作应用程序。"
"他还表示,如果AI本身达到某种形式的数字感知,它就可以使用理解自身时所用的相同“回路”来与其他感知生命产生共情(类似于人类中的镜像神经元)。"
"CoreWeave在48小时内与Meta签署了价值210亿美元的协议,并与Anthropic达成了多年交易。"
"当前的前沿模型与两年前存在的模型有显著的不同。可靠的工具调用、整个会话过程中的连贯性,以及在此基础上构建的实际可用性——这些以前都无法可靠地实现。"
"我构建了一个神经符号/Transformer混合系统,将Transformer降级为语言接口。"
"合作之所以有效,是因为它允许一个由许多并行工作的合作智能体组成的组织,每个智能体的上下文有限,去近似一个拥有大幅扩展的有效上下文窗口并长时间顺序工作的单一智能体。"
"根据大型AI公司的说法,为了实现他们无限扩展AI基础设施的目标——他们声称这对于达成通用人工智能 (AGI) 这一圣杯是必要的——这种充满野心且无条件的政府支持正是所需之物。"
"mo花时间为日常用户将事情分解(简化)开来。不确定这是否过于简单化或是有意的误导,但他的论点多少引起了共鸣。"
"Anthropic之所以选择不向公众发布,是因为其网络安全能力出乎意料地高,官方技术博客指出它在“计算……方面拥有惊人的能力”。"