AI已能“观影”？动作片新视角！

AI赋能视频理解：从英伟达Blueprint到开源OmAgent，智能体开启视频新纪元

引言： 你是否曾因错过电影中的精彩片段、体育比赛的关键时刻而懊恼？如今，AI正赋予机器“看懂”视频的能力，让精准的信息检索成为现实。本文将深入探讨英伟达最新发布的NVIDIA AI Blueprint以及国内开源项目OmAgent，分析它们在视频理解领域的突破与局限，并展望未来发展趋势。

主体：

一、英伟达Blueprint：预训练模型的强大与局限

英伟达推出的NVIDIA AI Blueprint是一个预训练的可自定义AI工作流，旨在简化生成式AI应用的构建和部署。其在视频问答方面的表现令人印象深刻：能够准确回答关于事件发生时间、对象状态等问题，例如“工人在什么时候掉落了箱子”、“叉车往哪个方向开”。然而，Blueprint在处理细节问题（例如“谁捡起了掉在地上的箱子”）时，准确性有所下降。更重要的是，其试用过程中存在的流量限制和无限验证等问题，严重影响了用户体验，并且目前仍处于早期申请使用阶段，可及性有限。这些都限制了Blueprint的实际应用和推广。

二、OmAgent：开源框架的灵活性和潜力

与Blueprint不同，OmAgent是一个开源的多模态智能体框架，支持简单快速地开发面向各种设备的智能体系统。其设计遵循三个核心原则：基于图的工作流编排、原生多模态支持以及设备中心化。这使得开发者能够更灵活地构建基于不同设备的AI应用，而无需过多关注底层硬件和软件的兼容性问题。

OmAgent在视频问答方面的表现同样出色。测试结果显示，它能够准确处理Blueprint测试视频中的问题，并能有效处理更复杂的场景，例如对长篇视频（例如《双城之战》）进行剧情相关的提问，并给出准确的答案。此外，OmAgent的另一个显著优势在于其设备兼容性，能够将智能体应用于智能手机、智能可穿戴设备、智能摄像头等多种设备，拓展了AI应用的可能性。其在EMNLP 2024主会发表的视频理解智能体工作流，也证明了其技术实力。

三、对比分析：Blueprint与OmAgent的优劣势

| 特性 | 英伟达Blueprint | OmAgent |
|—————|———————————————|———————————————-|
| 开源性 | 否 | 是 |
| 可用性 | 早期申请使用制，试用体验受限| 开源可用，部署方便 |
| 功能 | 视频问答，侧重于事件时间和对象状态 | 视频问答，支持多模态，可应用于多种设备 |
| 准确性 | 对细节问题的准确性有待提高 | 在测试中表现出色，能处理复杂场景 |
| 设备兼容性 | 未明确说明 | 支持多种设备，包括智能手机、可穿戴设备等 |
| 开发难度 | 相对较高，需要一定的专业知识和经验 | 相对较低，提供示例项目，易于上手 |

结论：

英伟达Blueprint和OmAgent代表了视频理解领域AI技术发展的两个方向：前者是商业化、预训练模型的代表，后者是开源、灵活的框架。Blueprint在准确性和易用性方面仍有提升空间，而OmAgent凭借其开源性和灵活性，为开发者提供了更广阔的创新空间。未来，随着技术的不断进步和数据积累，视频理解AI技术将进一步发展，为我们带来更加便捷、智能的数字生活体验。更重要的是，开源项目的蓬勃发展，将加速AI技术的普及和应用，推动AI技术在各个领域的创新。

参考文献：