李飞飞和吴佳俊团队推出长视频理解基准数据集HourVideo,推动人工智能理解视频内容的新纪元
斯坦福大学人工智能实验室近日发布了名为 HourVideo 的长视频理解基准数据集,该数据集由 李飞飞 和 吴佳俊 团队主导开发,旨在推动人工智能领域对长视频内容的理解能力。HourVideo 的推出标志着人工智能研究领域在视频理解方面迈出了重要一步,将为多模态人工智能、自主代理、增强现实、视频内容分析和机器人视觉等领域带来深远影响。
HourVideo 包含 500 个第一人称视角视频,时长从 20分钟到 120 分钟不等,涵盖了 77 种日常活动。这些视频来自 Ego4D 数据集,该数据集是目前规模最大、最全面的第一人称视角视频数据集。HourVideo 的设计目标是评估多模态模型对长视频的理解能力,包括对视频中多个时间片段信息的识别和综合能力。
HourVideo 采用了一套包含多个子任务的任务套件,每个任务都需要模型对视频内容进行长期依赖关系的理解和推理。这些任务包括:
- 总结: 要求模型对视频内容进行概括性描述。
- 感知: 要求模型识别视频中特定物体、动作和事件。
- 视觉推理: 要求模型根据视频内容进行逻辑推理和判断。
- 导航:要求模型根据视频内容进行路径规划和导航。
为了确保测试题目的质量,HourVideo 采用了多阶段的数据生成流程,包括视频筛选、问题生成、人工反馈优化、盲筛选和专家优化。最终,HourVideo 生成了 12,976 个多项选择题,这些问题由人工注释者和大型语言模型 (LLMs) 共同生成。
HourVideo 的推出将为人工智能研究领域带来以下几个方面的积极影响:
- 推动多模态人工智能研究: HourVideo 为研究和开发理解长时间连续视频内容的多模态模型提供了宝贵的数据资源。
- 促进自主代理和助手系统的发展: HourVideo 可以帮助开发理解长时间视觉信息并做出决策的自主代理和虚拟助手。
- 提升增强现实 (AR) 和虚拟现实 (VR) 体验: HourVideo 可以为创建能理解和适应用户行为的沉浸式 AR/VR 体验提供技术基础。
- 优化视频内容分析: HourVideo 可以用于分析和理解视频内容,例如监控视频、新闻报道、教育视频等,提取关键信息和洞察。
- 增强机器人视觉能力: HourVideo 可以帮助机器人理解长时间序列的视觉信息,提高其在复杂环境中的导航和操作能力。
HourVideo 的发布标志着人工智能研究领域在视频理解方面取得了重大进展。随着人工智能技术的不断发展,相信 HourVideo 将为推动人工智能理解视频内容的新纪元做出更大的贡献。
项目地址:
- arXiv 技术论文:https://arxiv.org/pdf/2411.04998v1
总结:
HourVideo 是一个由李飞飞和吴佳俊团队开发的长视频理解基准数据集,它包含 500 个第一人称视角视频,涵盖 77 种日常活动,时长从 20 分钟到 120 分钟不等。该数据集旨在评估多模态模型对长视频的理解能力,包括对视频中多个时间片段信息的识别和综合能力。HourVideo 的推出将为多模态人工智能、自主代理、增强现实、视频内容分析和机器人视觉等领域带来深远影响。
Views: 0