暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

最新公开: 大规模视频CoT推理数据集及其制作流程

AI 搜索引擎 2024-12-11
1373

今天分享的是北航、上海人工智能实验室发布的一篇论文:

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning Via Core Frame Selection。

VideoEspresso: 通过核心帧选择进行细粒度视频推理的大规模思维链数据集

论文链接: https://arxiv.org/pdf/2411.14794 
代码和数据集链接: https://github.com/hshjerry/VideoEspresso


01

摘要

近年来,大型视觉语言模型(Large Vision-Language Models, LVLMs)在多模态任务中展现了巨大潜力。然而,在视频推理领域,由于现有数据集稀缺且不够精细化,这些模型在推理质量和效率上面临挑战。为此,本文介绍了一种名为 VideoEspresso 的大规模视频推理数据集,并提出了一套高效的混合型LVLM协作框架,旨在突破现有视频问答(VideoQA)任务的瓶颈。

02

数据集


VideoEspresso 数据集以自动化、高质量的构建流程为核心,覆盖了从视频数据收集到多模态推理注释的全链条过程。其构建流程分为以下四个关键步骤:

1. 视频数据收集

  • 数据来源:从多种公开数据集中提取视频,包括新闻、电影、纪录片、动画、教育内容等,确保数据的语义丰富性。
  • 视频类型:涵盖动态场景和静态场景,确保多样性和复杂性。

2. 冗余去除

  • 目标:通过去除冗余帧,保留关键帧内容。
  • 实现方法
    • 采样策略:动态场景采用更高帧率(FPS),静态场景采用较低帧率。
    • 语义过滤:利用 InternVL2-8B 模型生成帧描述,并通过 BGE-M3 模型进行细粒度语义筛选,去除相似帧。
    • 分组处理:将相邻帧的描述分组,保留帧间的时间连贯性。

3. 高质量 QA 对构建

  • 目标:通过 GPT-4o 生成基于多帧描述的复杂推理 QA 对。
  • 实现方法
    • 提示设计:设计精确的提示,引导 GPT-4o 生成具有深度推理能力的问答对。
    • 质量验证:利用辅助 LLM 验证 QA 对的质量,包括事实准确性、去除幻觉和开放性问题。

4. 多模态 CoT 注释

  • 目标:引入视频CoT注释,细化推理步骤。
  • 实现方法
    • 使用 GPT-4o 提取文本证据,识别关键对象。
    • 利用 GroundingDINO 标注关键帧中的目标位置,并通过 CLIP-ViT-B/32 验证标注一致性。
    • 使用 BGE-M3 模型检索原始注释的时间信息,确保时空标注精准。

03

关键技术

多模态 CoT 注释通过整合文本、空间和时间信息,形成细粒度的推理链条。包含:

  • 文本证据:从视频注释中提取关键信息,如“角色A在厨房里操作咖啡机”。
  • 空间标注:标记“角色A”和“咖啡机”在图像中的位置。
  • 时间定位:通过计算语义相似度,确定事件发生的具体时间点。

最终,这些多模态证据被用作推理的中间步骤,帮助模型更高效地回答问题。

04

推理框架

为充分利用高质量数据,VideoEspresso 提出了一种名为“混合型 LVLMs 协作框架”的推理方法,包括以下两大核心组件:

1. 轻量级选择器

  • 功能:从输入视频中提取与问题相关的关键帧,减少计算量。
  • 工作流程
    • 使用轻量级 LVLM 转换帧描述为语言描述。
    • 通过 LLM 选择最相关的帧描述及其对应帧。

2. 细粒度推理模型

  • 功能:利用核心帧及多模态证据进行推理,生成最终答案。
  • 训练方法
    • 证据生成阶段:引导模型生成与问题相关的多模态证据。
    • 答案生成阶段:根据证据生成准确答案。
  • 优势
    • 提高推理效率:通过核心帧选择减少无关信息输入。
    • 增强答案准确性:结合多模态证据优化推理质量。
    • 提供强解释性:两阶段结构使推理过程透明易理解。


05

总结

VideoEspresso 通过其大规模、细粒度的数据集和混合型 LVLMs 协作框架,为视频推理任务带来了显著进步。它不仅缓解了现有数据集稀缺的问题,还通过多模态 CoT 注释提升了推理过程的透明性和效率。未来,VideoEspresso 有望在多模态视频理解、复杂场景推理等领域产生深远影响。


06

 编者简介

李剑楠:华东师范大学硕士研究生,研究方向为向量检索。曾作为核心研发工程师参与向量数据库、RAG 等产品研发,代表公司参加 DTCC、WAIM 等会议进行主题分享。

▎往期推荐

ACL2024: 生成器+阅读器,大幅提升大模型协作能力

阿里多模态RAG新框架,快速提升图文检索准确率

把检索语言换成html,RAG能力得到显著提升!


文章转载自AI 搜索引擎,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论