人工智能激动人心的一天:合作与创新涌现!
分析
关键要点
“NVIDIA AI 开源 KVzap:一种 SOTA KV 缓存修剪方法,可实现近乎无损的 2x-4x 压缩。”
“NVIDIA AI 开源 KVzap:一种 SOTA KV 缓存修剪方法,可实现近乎无损的 2x-4x 压缩。”
“英伟达人工智能开源 KVzap:一种 SOTA KV 缓存剪枝方法,可实现近乎无损的 2 倍至 4 倍压缩。”
“随着上下文长度增加到数万甚至数十万个 token,Transformer 解码器中的 key-value 缓存成为主要的部署瓶颈。”
“你在剪枝你的神经网络吗? "删除权重较小的参数!" 或 "梯度..."”
“它的目标是使在一致的训练和评估堆栈下,在GPU和[…]上轻松比较块级别、层级别和权重级别的剪枝方法。”
“我知道深度学习模型剪枝的基础知识。但是,我不知道如何对更大的模型进行剪枝。分享您的知识和资源将指导我,谢谢”
“某些压缩策略不仅可以保持鲁棒性,而且可以提高鲁棒性,特别是在具有更复杂架构的网络上。”
“在4096 × 4096矩阵上使用2:4稀疏性与量化相结合,我们的方法实现了高达4倍的权重存储减少和1.71倍的矩阵乘法加速,与密集型GPU基线相比,端到端延迟降低了1.29倍。”
“本文提出了第一个具有二阶无超梯度估计器的资源自适应分布式双层优化框架。”
“本文介绍了“增量证书学习”,以最大限度地利用可靠的线性松弛,并且仅在松弛变得不确定时才调用精确的分段线性推理。”
“”
“BR$k$NN-Light算法使用基于几何约束的快速验证和剪枝策略,并结合优化的范围搜索技术,以加速识别每个查询的R$k$NN的过程。”
“即使在剪枝了 85% 的训练数据后,该方法也能显著提高收敛性和生成质量,并在下游任务中实现最先进的性能。”
“作者建议将RL目标约束到一个动态剪枝的“安全”词汇表中,该词汇表排除了极端尾部。”
“论文表明,在数据和客户端参与异构性的条件下,可以在FL中实现参数的目标密度(rho),并且统计性能的损失最小。”
“在30%和40%的稀疏度下,FANG的平均准确率比FLAP和OBC高出1.5%--8.5%。”
“我们的方法与基线方法相比,实现了平均8%的比特率降低。”
“OrchANN在QPS和延迟方面均优于包括DiskANN、Starling、SPANN和PipeANN在内的四个基线,同时减少了SSD访问。 此外,OrchANN在不牺牲准确性的情况下,比竞争系统提供高达17.2倍的更高QPS和25.0倍的更低延迟。”
“本文提出了基于希尔伯特曲线重新排序的新型邻居感知令牌缩减方法,该方法使用一维顺序表示明确地保留了二维空间中的邻居结构。”
“该方法可以在保持长上下文设置的性能的同时,减少多达80%的视觉token。”
“指令遵循能力显着提高(Llama-3.2-1B 和 3B 模型在 IFEval 中提升了 46% 到 75%)。”
“Selective TTS在固定的计算预算下提高了洞察力质量,将平均分数从61.64提高到65.86,同时降低了方差。”
“当持续参与成为均衡中的主导策略时,稀疏性自然出现。”
“在NOMA中,网络被视为托管内存缓冲区。 增长容量是一种语言原语。”
“Pruning $8$--$16$ attention sublayers yields up to $1.30\times$ higher inference throughput while keeping average zero-shot accuracy within $2\%$ of the unpruned baseline.”
“SHRP在将参数减少48%的同时,实现了原始模型93%的精度。”
“”
“在长时间的多会话对话中进行时间推理是对话代理的关键能力。”
“为了解决这些限制,我们提出了 M$^3$KG-RAG,一种多跳多模态知识图谱增强 RAG,它可以从 MMKG 中检索与查询对齐的视听知识,从而提高 MLLM 中的推理深度和答案的忠实度。”
“”
“这篇论文介绍了 Hessian-Guided Efficient Dynamic Attention and Token Pruning in Vision Transformer (HEART-VIT)。”
“该论文可能详细介绍了方法论、实验设置、结果以及与现有方法的比较。”
“该论文侧重于消除重要性偏差并促进令牌选择过程中的结构多样性。”
“文章的核心概念是通过删除不必要的数据点来优化自动驾驶数据集。”
“这项研究可在ArXiv上找到。”
“论文重点关注轨迹驱动的专家修剪。”
“”
“该研究侧重于可组合的、无条件的安全。”
“提出了一种 28nm 0.22 μJ/token 内存计算强度感知的 CNN-Transformer 加速器。”
“该研究利用在线半去中心化时空图神经网络。”
“PruneX是一个分层通信高效系统。”
“OPTIMA 使用二次规划重建进行 LLM 剪枝。”
“”
“这篇文章基于提交给 ArXiv 的论文。”
“该研究侧重于加速在线视频理解。”
“文章的语境表明它来自 ArXiv,这意味着这是一篇经过同行评审的研究论文。”
“SparseSwaps 可能会为 LLM 剪枝过程中的掩码优化提供一种新方法。”
“”
“本文的核心创新在于其使用李群和量子几何对偶表示进行剪枝。”
“这项研究侧重于边缘设备上的联邦皮肤病变分类。”