安博体育
安博体育
- 安博体育 - 官方体育投注平台 足球·
- 【2012安博体育 - 官方体育投注平台
- 安博体育 - 官方体育投注平台 足球·
- 北京房山军训安博体育 - 官方体育投注平
- 安博体育 - 官方体育投注平台 足球·
联系我们
电话:363050.com
手机:363050.com
邮箱:363050.com
地址:安博体育永久网址【363050.com】
安博电竞
打破跨模态干扰快手东北大安博体育 - 官方体育投注平台 足球·篮球·电竞一站式服务学联合提出统一多模态框架
- 作者:小编
- 发布时间:2025-06-14 05:10:00
- 点击:
安博,安博体育,安博体育app,安博官方网站,安博电竞,安博真人,安博棋牌,足球投注平台,安博体育注册,体育彩金,电竞下注平台
多模态检索是信息理解与获取的关键技术,但其中的跨模态干扰问题一直是一大难题。
可行的解决办法是构建一种统一的多模态表示方式,为此,来自快手与东北大学的研究人员推出了多模态统一嵌入框架——UNITE。
UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。
它从数据策划与训练机制两个关键视角出发,用对比学习的机制重新定义了统一多模态表示学习的范式。
如果在训练时将所有模态混合进行对比学习,会导致表示空间产生语义扭曲或干扰噪声,影响模型对各模态语义的准确建模。
在传统InfoNCE损失下,模型会尝试最大化正样本对之间的相似度,并最小化其与负样本之间的相似度:
但这种方式不能区分模态组合,例如,一个query的正样本为文本模态,但其负样本可能是图像、视频或者其他模态组合。这可能导致模型用图像来学文本相似度,产生模态冲突。
MAMCL的核心思想是模态掩码约束,也就是只在与当前query目标模态一致的负样本中进行对比,从而避免模态间的错误竞争。
给定一个批次中个query,每个query()对应一个正样本和个负样本,构造相似度矩阵:
为了平衡泛化能力与判别能力,UNITE采用了“检索适应 + 指令微调”的两阶段训练方案:
检索适应阶段,使用text-text、text-image、text-video等多模态数据训练模型的基本检索能力,同时引入高粒度视频-文本数据,显著提升模型的细粒度区分能力;指令微调阶段,基于MMEB、CoVR等复杂多模态指令任务训练,增强模型的指令遵循能力和扩展性。
为验证其通用性,团队还在多个标准跨模态检索任务上进行了评估。在Flickr30K、MSR-VTT、MSVD、DiDeMo任务上,展现了良好的通用表征能力。
综合来看,UNITE支持文本、图像、视频及融合模态内容,并展现了综合最优性能。
具体来说,视频-文本对数据在所有配置中表现最为突出,不仅在视频检索任务中遥遥领先(如MSR-VTT、MSVD),甚至在图文检索任务中也超越了基于图像-文本对训练的模型。
尽管视频-文本对数据在一般检索任务中表现出色,但在复杂检索指令跟随类任务(如MMEB、CoVR)中,其优势反而不明显。
这类任务需要模型理解长文本、复杂逻辑或多阶段指令,研究认为,Text–Text数据提升了语言理解与逻辑构建能力,而Text–Image数据提供精准的视觉语义映射,利于模态对齐。
最后,细粒度Text-Video样本的添加策略影响巨大,直接在第一阶段“检索适应”中融合细粒度视频-文本样本,能带来整体性能最优解,相比传统“先对齐后微调”的做法更加有效且高效。