搜索:
匹配:
38 篇

分析

本文介绍了 STAgent,一个专门为时空理解和解决复杂任务(如行程规划)而设计的大型语言模型。 关键贡献包括一个稳定的工具环境、一个分层数据策划框架和一个级联训练配方。 这篇论文的重要性在于其对 agentic LLM 的方法,特别是在时空推理的背景下,以及其在旅行规划等实际应用中的潜力。 使用从 SFT 到 RL 的级联训练配方是一个值得注意的方法论贡献。
引用

STAgent 有效地保留了其通用能力。

分析

本文介绍了HAT,一种用于自动驾驶中端到端(E2E)3D感知的新的时空对齐模块。它解决了现有方法依赖于注意力机制和简化运动模型的局限性。HAT的关键创新在于它能够自适应地从多个假设中解码出最佳对齐方案,同时考虑语义和运动线索。结果表明,在3D时间检测器、跟踪器和以对象为中心的端到端自动驾驶系统中,特别是在语义条件被破坏的情况下,有了显著的改进。这项工作很重要,因为它为时空对齐提供了一种更稳健和准确的方法,而时空对齐是可靠自动驾驶感知的一个关键组成部分。
引用

HAT在各种基线上持续改进了3D时间检测器和跟踪器。当与DETR3D检测器配对时,它在测试集上实现了46.0%的AMOTA,达到了最先进的跟踪结果。

分析

本文介绍了JavisGPT,一种新型的多模态大型语言模型(MLLM),旨在用于联合音频-视频(JAV)理解和生成。其重要性在于其统一的架构、用于时空融合的SyncFusion模块,以及使用可学习查询连接到预训练的生成器。创建包含超过20万个对话的大型指令数据集(JavisInst-Omni)对于训练和评估模型的能力至关重要。本文的贡献在于推进了从音频和视频输入理解和生成内容的最新技术,特别是在复杂和同步的场景中。
引用

JavisGPT 优于现有的 MLLM,特别是在复杂和时间同步的设置中。

时空拓扑功能模型

发布:2025年12月28日 11:37
1分で読める
ArXiv

分析

本文介绍了一个框架 (TopFunST),用于分析系统中拓扑依赖关系,并结合了空间和时间方面,而这些方面是拓扑功能模型 (TFM) 之前所缺少的。这很重要,因为它扩展了 TFM 在更广泛的系统中的适用性,其中空间和时间动态至关重要。
引用

本文提出了一个解决方案,将空间和时间方面纳入对功能特征之间拓扑关系的分析。

Research#Graph Learning🔬 Research分析: 2026年1月10日 17:51

AnchorGK:基于锚点的用于时空克里格的增量分层图学习框架

发布:2025年12月25日 08:27
1分で読める
ArXiv

分析

这项研究介绍了AnchorGK,这是一个旨在用于归纳时空克里格的框架,解决了增量和分层图学习的挑战。 这项工作利用图学习技术来提高时空数据分析的准确性和效率。
引用

本文重点介绍基于锚点的用于归纳时空克里格的增量分层图学习。

Research#llm🔬 Research分析: 2026年1月4日 09:37

动态注意力(DynAttn):可解释的高维时空预测(应用于冲突死亡人数)

发布:2025年12月24日 21:47
1分で読める
ArXiv

分析

这篇文章介绍了DynAttn,一种新的时空预测方法,侧重于可解释性。应用于冲突死亡人数表明了其在现实世界中的影响。来源是ArXiv,表明这是一篇研究论文,可能详细介绍了方法论、实验和结果。
引用

N/A

Research#llm🔬 Research分析: 2026年1月4日 07:10

STLDM:用于降水临近预报的时空潜在扩散模型

发布:2025年12月24日 11:34
1分で読める
ArXiv

分析

本文介绍了一种用于降水临近预报的新模型STLDM。该模型采用了时空潜在扩散方法。来源是ArXiv,表明这是一篇研究论文。
引用

Research#llm🔬 Research分析: 2026年1月4日 09:21

DETACH:基于分解时空对齐的、用于外视角视频和环境传感器的分阶段学习

发布:2025年12月23日 14:55
1分で読める
ArXiv

分析

这篇文章介绍了一种新方法DETACH,用于将外视角视频数据与环境传感器数据对齐。使用分解的时空对齐和分阶段学习表明,这可能是一种有效的方法,可以处理集成这些不同数据模式的复杂性。来源是ArXiv表明这是一篇研究论文,可能详细介绍了这种新方法的方法论、实验和结果。需要访问完整的论文才能评估技术细节、性能和局限性。

关键要点

    引用

    Research#Graph Networks🔬 Research分析: 2026年1月10日 08:16

    基于时空图的海洋异常检测基准测试

    发布:2025年12月23日 06:28
    1分で読める
    ArXiv

    分析

    这篇ArXiv文章强调了时空图神经网络在关键的现实问题——海上异常检测中的应用。这项研究为评估和推进该领域的人工智能驱动解决方案提供了宝贵的基准,这对安全和保障具有重大意义。
    引用

    这篇文章侧重于海上异常检测。

    Research#AI/Agriculture🔬 Research分析: 2026年1月10日 08:21

    人工智能预测奶牛场可持续性:预测与政策分析

    发布:2025年12月23日 01:32
    1分で読める
    ArXiv

    分析

    这篇ArXiv论文探讨了时空图神经网络在预测奶牛场可持续性方面的应用,为预测和反事实政策分析提供了宝贵的见解。这项研究侧重于实际应用,特别是在农业领域,这表明了产生重大环境和经济效益的潜力。
    引用

    本文使用了时空图神经网络。

    Research#Climate🔬 Research分析: 2026年1月10日 08:32

    DK-STN: 基于领域知识的时空网络模型在MJO预测中的应用

    发布:2025年12月22日 16:00
    1分で読める
    ArXiv

    分析

    这项研究探索了一种新方法,以改进对Madden-Julian振荡(MJO,一种关键气候现象)的预测。 使用领域知识嵌入的时空网络(DK-STN)很有前景,可能导致更准确和可靠的天气预报。
    引用

    该研究侧重于开发用于MJO预测的模型。

    Research#Neuroscience🔬 Research分析: 2026年1月10日 08:48

    基于贝叶斯方法的快速四维时空荧光成像中神经元活动自动分割

    发布:2025年12月22日 05:08
    1分で読める
    ArXiv

    分析

    这项研究探讨了使用贝叶斯方法从复杂、高维荧光成像数据中自动分割神经元活动。 贝叶斯方法在处理此类生物数据集固有的不确定性和噪声方面具有前景,可能导致更准确和高效的分析。
    引用

    基于贝叶斯方法的快速四维时空荧光成像中神经元活动自动分割

    Research#Action Recognition🔬 Research分析: 2026年1月10日 08:58

    基于上下文感知的 AI 改进视频动作识别

    发布:2025年12月21日 14:34
    1分で読める
    ArXiv

    分析

    本文探讨了使用多尺度时空注意力的基于上下文感知网络在视频动作识别中的应用。这项研究侧重于通过整合上下文信息来提高动作识别模型的准确性和效率。
    引用

    这项研究基于 arXiv 上发表的论文。

    Research#GNN🔬 Research分析: 2026年1月10日 09:08

    用于城市规模动态物流路径规划的分布式分层时空边缘增强图神经网络

    发布:2025年12月20日 17:27
    1分で読める
    ArXiv

    分析

    这项研究探索了一种复杂的图神经网络架构,以解决城市规模的动态物流路径规划的复杂问题。该研究侧重于时空动态和边缘增强,表明这是一种很有前景的方法,可以优化路径规划效率和响应能力。
    引用

    该研究侧重于用于城市规模动态物流路径规划的分布式分层时空边缘增强图神经网络。

    Research#Forecasting🔬 Research分析: 2026年1月10日 09:30

    注入地统计学偏差:Transformer增强时空预测

    发布:2025年12月19日 15:32
    1分で読める
    ArXiv

    分析

    这项研究探索了一种新方法,通过在 Transformer 中的自注意力机制中结合地统计协方差偏差来增强时空预测。该方法旨在提高涉及空间和时间相关数据的任务中预测的准确性和稳健性。
    引用

    该研究重点在于将地统计协方差偏差注入自注意力机制,用于时空预测。

    Research#llm🔬 Research分析: 2026年1月4日 10:47

    学习基于视频的注视估计的时空特征表示

    发布:2025年12月19日 15:15
    1分で読める
    ArXiv

    分析

    这篇文章描述了专注于使用视频数据改进注视估计的研究。这项工作的核心可能涉及开发从视频序列中提取和利用空间和时间信息的方法,以提高注视预测的准确性。“时空”的使用表明研究人员正在考虑注视随时间的变化,而不仅仅是单帧分析。来源 ArXiv 表明这是一篇预印本,这意味着它很可能是一篇提交同行评审的研究论文。

    关键要点

      引用

      Research#Pattern Recognition🔬 Research分析: 2026年1月10日 09:57

      复杂系统中基于向量场表示的时空数据模式识别

      发布:2025年12月18日 16:59
      1分で読める
      ArXiv

      分析

      这篇 ArXiv 论文探讨了一种使用时空数据向量场表示在复杂系统中进行模式识别的新方法。 这种方法有望在理解和预测各个科学学科中的动态现象方面取得重大进展。
      引用

      该研究侧重于复杂系统中的模式识别。

      Research#Embodied AI🔬 Research分析: 2026年1月10日 10:03

      SNOW:利用世界知识的时空场景理解,赋能开放世界具身推理

      发布:2025年12月18日 12:27
      1分で読める
      ArXiv

      分析

      SNOW的研究通过结合世界知识来改进时空场景理解,为具身人工智能提供了一种新颖的方法。 这项工作有可能显著增强在开放世界环境中运行的具身智能体的推理能力。
      引用

      该研究论文的来源是ArXiv。

      Research#Vision-Language🔬 Research分析: 2026年1月10日 10:15

      R4:基于检索增强的4D时空视觉语言模型推理

      发布:2025年12月17日 20:08
      1分で読める
      ArXiv

      分析

      这篇ArXiv文章介绍了R4,这是一种通过在4D时空框架内结合检索增强推理来增强视觉语言模型的新方法。这标志着在解决理解和推理动态视觉数据的复杂性方面迈出了重要一步。
      引用

      R4 可能会利用检索增强技术来处理和推理跨越空间和时间维度的视觉信息。

      Research#Occupancy Modeling🔬 Research分析: 2026年1月10日 10:20

      OccSTeP:人工智能4D占用时空持久性基准测试发布

      发布:2025年12月17日 17:29
      1分で読める
      ArXiv

      分析

      OccSTeP的发布突出了对改进人工智能系统理解和预测动态环境性能的持续研究。 这个基准测试为评估4D占用建模的进步提供了关键工具,促进了自动导航和机器人等领域的发展。
      引用

      该论文介绍了OccSTeP,一个新的基准测试。

      Research#llm🔬 Research分析: 2026年1月4日 09:51

      用于多模光纤时空传播的双向傅里叶增强深度算子网络

      发布:2025年12月17日 14:18
      1分で読める
      ArXiv

      分析

      本文提出了一种用于模拟多模光纤时空传播的新型深度学习方法。使用双向傅里叶增强深度算子网络表明了在该领域提高模拟精度和效率的尝试。专注于多模光纤表明了特定的应用领域,可能与光通信或相关领域有关。标题具有技术性,并清楚地表明了研究重点。
      引用

      文章的摘要(未提供)将包含关键发现和贡献。如果没有摘要,就无法进行更详细的评论。

      Research#Video Synthesis🔬 Research分析: 2026年1月10日 11:10

      STARCaster: 基于时空自回归视频扩散的身份和视角感知型说话头像生成

      发布:2025年12月15日 11:59
      1分で読める
      ArXiv

      分析

      STARCaster 论文侧重于用于说话头像生成的视频扩散,代表了创建逼真且可控的虚拟化身的重要一步。时空自回归建模的使用表明这是一种捕捉身份和视角感知能力的复杂方法。
      引用

      该研究来自ArXiv。

      Infrastructure#Traffic🔬 Research分析: 2026年1月10日 11:11

      人工智能预测交通流量:基于时空图神经网络的网络交通量估计

      发布:2025年12月15日 11:30
      1分で読める
      ArXiv

      分析

      这项研究探索了图神经网络在交通管理中的一种新颖应用,特别是使用速度曲线来估计交通流量。 采用定向空间注意机制表明,研究试图捕捉交通网络中复杂的空间依赖关系。
      引用

      这项研究使用了具有定向空间注意力的时空图神经网络。

      Research#AI🔬 Research分析: 2026年1月4日 10:32

      用于城市出租车目的地预测的时空混合量子-经典图卷积神经网络方法

      发布:2025年12月15日 02:31
      1分で読める
      ArXiv

      分析

      本文提出了一种使用混合量子-经典模型预测出租车目的地的新方法。使用图卷积神经网络表明试图对位置之间的空间关系进行建模,而量子计算的集成暗示了计算效率或准确性的潜在改进。专注于出租车目的地预测是一个实际应用,对城市规划和交通优化具有潜在益处。来源为ArXiv表明这是一篇研究论文,可能详细介绍了所提出方法的方法论、实验和结果。
      引用

      本文可能详细介绍了用于出租车目的地预测的混合量子-经典图卷积神经网络的方法论、实验和结果。

      Research#Video Compression🔬 Research分析: 2026年1月10日 11:21

      L-STEC:基于长期时空增强上下文的视频压缩学习

      发布:2025年12月14日 18:11
      1分で読める
      ArXiv

      分析

      L-STEC 论文侧重于视频压缩,提出了一种利用长期时空上下文的新方法。这个研究领域对于高效的数据传输和存储至关重要。
      引用

      该论文可在 ArXiv 上获取。

      Research#Agent🔬 Research分析: 2026年1月10日 11:29

      RAST-MoE-RL:基于模式感知的时空MoE框架,用于网约车深度强化学习

      发布:2025年12月13日 20:49
      1分で読める
      ArXiv

      分析

      该研究引入了一个新颖的框架RAST-MoE-RL,用于使用深度强化学习解决网约车优化的复杂性。 这种方法的目标很可能是提高动态交通环境中的效率和响应速度。
      引用

      该文章来自ArXiv,表明同行评审可能尚未完成。

      Infrastructure#Computer Vision🔬 Research分析: 2026年1月10日 11:36

      基于城市路灯图像的多年期数据集,用于视觉监测和时空漂移检测

      发布:2025年12月13日 06:28
      1分で読める
      ArXiv

      分析

      这项研究引入了一个用于使用视觉监控技术分析城市路灯的新型多年期数据集。开发这样一个数据集对于推进人工智能在城市基础设施管理中的应用至关重要。
      引用

      该论文来自ArXiv,表明它很可能是一篇研究出版物。

      Safety#Accident Detection🔬 Research分析: 2026年1月10日 11:48

      基于 Transformer 架构的监控视频交通事故检测

      发布:2025年12月12日 07:57
      1分で読める
      ArXiv

      分析

      这项研究探索了将在自然语言处理中取得成功的 Transformer 架构应用于监控视频中的交通事故检测。 Transformer 模型的使用表明,尝试捕捉视频数据中复杂的时空关系,以实现更准确和自动化的事故识别。
      引用

      这篇文章基于发表在 ArXiv 上的研究,表明同行评审可能正在进行中或不存在。

      Research#Video LLM🔬 Research分析: 2026年1月10日 12:54

      增强视频LLM:基于检测器的时空推理

      发布:2025年12月7日 06:11
      1分で読める
      ArXiv

      分析

      这项研究探索了通过目标检测能力增强视频大型语言模型 (LLM),从而改进其时空推理的可能。 这篇论文的贡献在于检测器的集成,这可能使 LLM 能够更有效地理解和推理视频内容。
      引用

      该研究侧重于基于检测器的视频大型语言模型。

      Research#VLM🔬 Research分析: 2026年1月10日 13:04

      VOST-SGG: 基于VLM的一阶段时空场景图生成

      发布:2025年12月5日 08:34
      1分で読める
      ArXiv

      分析

      VOST-SGG的研究提出了一种利用视觉语言模型(VLM)进行场景图生成的新方法,可能提高理解复杂视觉场景的准确性和效率。有必要进一步研究其在不同视频数据集上的性能提升和实际应用。
      引用

      VOST-SGG是一个基于VLM的一阶段时空场景图生成模型。

      Research#VLM🔬 Research分析: 2026年1月10日 13:04

      Know-Show: 用于评估视频语言模型时空推理的新基准

      发布:2025年12月5日 08:15
      1分で読める
      ArXiv

      分析

      这篇 ArXiv 论文介绍了一个新的基准测试,名为“Know-Show”,用于评估视频语言模型 (VLMs)。 该基准测试侧重于时空定位推理,这是理解视频内容的关键能力。
      引用

      该论文可在 ArXiv 上获取。

      Research#llm🔬 Research分析: 2026年1月4日 09:08

      ToG-Bench:以任务为导向的自中心视频时空定位

      发布:2025年12月3日 10:54
      1分で読める
      ArXiv

      分析

      本文介绍了ToG-Bench,这是一个新的基准,用于评估AI模型在自中心视频中的时空定位任务。重点是从第一人称视角理解和定位物体和事件,这对于机器人技术和增强现实等应用至关重要。这项研究可能探讨了处理动态场景、遮挡和自中心视角的挑战。基准的使用表明侧重于对不同AI方法的定量评估和比较。

      关键要点

        引用

        Research#llm🔬 Research分析: 2026年1月4日 08:21

        FireSentry:用于细粒度野火蔓延预测的多模态时空基准数据集

        发布:2025年12月3日 02:02
        1分で読める
        ArXiv

        分析

        这篇文章介绍了 FireSentry,一个为野火蔓延预测设计的新数据集。重点是使用多模态和时空数据进行细粒度预测。这表明了野火建模的进步,并可能提高预测火灾行为的准确性。
        引用

        Research#AI🔬 Research分析: 2026年1月10日 13:34

        EcoCast:用于持续生物多样性和气候风险预测的时空模型

        发布:2025年12月1日 23:06
        1分で読める
        ArXiv

        分析

        这篇研究论文提出了一个时空模型 EcoCast,用于预测生物多样性和气候风险。 这篇论文侧重于持续预测,表明它对理解和缓解环境挑战具有宝贵的贡献。
        引用

        EcoCast 是一个用于持续生物多样性和气候风险预测的时空模型。

        Research#Video grounding🔬 Research分析: 2026年1月10日 14:14

        利用强化微调提升时空视频定位

        发布:2025年11月26日 13:21
        1分で読める
        ArXiv

        分析

        这篇研究论文探讨了利用强化学习来改进时空视频定位的方法,为复杂的计算机视觉问题提出了一种新颖的途径。 该论文的贡献在于将强化学习应用于微调,这可能为视频理解带来进步。
        引用

        该研究侧重于增强时空视频定位。

        Research#AI in Science📝 Blog分析: 2025年12月29日 07:49

        与Rose Yu的时空数据分析 - #508

        发布:2021年8月9日 18:08
        1分で読める
        Practical AI

        分析

        这篇文章总结了一个播客节目,该节目以加州大学圣地亚哥分校的助理教授 Rose Yu 为特色。重点是她使用机器学习分析大规模时间序列和时空数据的研究。讨论涵盖了她结合物理知识、偏微分方程以及在她模型中利用对称性的方法。文章重点介绍了她新颖的神经网络设计,包括非传统的卷积算子和用于一般对称性的架构。它还提到了她关于深度时空模型的工作。该节目可能提供了关于机器学习在气候、交通运输和其他物理科学中应用的宝贵见解。
        引用

        Rose的研究侧重于推进机器学习算法和方法,用于分析大规模时间序列和时空数据,然后将这些发展应用于气候、交通运输和其他物理科学。

        Research#llm👥 Community分析: 2026年1月4日 08:59

        使用3D卷积神经网络进行说话人验证

        发布:2017年6月25日 04:27
        1分で読める
        Hacker News

        分析

        这篇文章来自Hacker News,重点介绍了使用3D卷积神经网络(CNN)进行说话人验证的研究应用。重点在于一个具体的技术实现,可能详细介绍了系统的架构、训练数据和性能。“Show HN”标签表明这是一个项目展示,意味着一个实际的演示或原型,而不是纯粹的理论论文。核心创新在于应用3D CNN,它非常适合处理时空数据,用于从声音中识别说话人的任务。这种方法的成功将取决于3D CNN有效捕捉和利用区分不同说话人的微妙声学特征的能力。
        引用