云从科技视觉-语言跟踪模型刷新世界纪录

速途元宇宙研究院讯 云从科技微信公众号今日发文,近日,作为多媒体领域唯一CCF A类顶级国际AI学术会议ACM MM 2023公布了论文接收名单,云从科技及联合研究团队的论文《All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment》成功入选。该论文提出了一个新颖的视觉-语言跟踪框架All-in-One,首次实现了视觉-语言跟踪网络结构与学习范式的大一统,摒弃了复杂的融合模块,实现了更加高效的多模态跟踪框架。
All-in-One框架主要包括一个统一的骨干网络和一个高效的多模态对齐模块,核心思想是通过一个统一的骨干网络尽早地在对齐的多模态信号之间建立双向信息流。All-in-One在4个有挑战性的数据集(TNL2K, LaSOT, LaSOTExt, WebUAV-3M)上刷新了4项世界纪录,并在OTB99-L数据集上使用单模型达到了多模型效果。研究人员发现All-in-One具备成为多模态视觉-语言跟踪领域基础大模型的巨大潜力。

上一篇:

下一篇:

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注