Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海枫泾古镇正门_20240824上海枫泾古镇正门_20240824
0

北京 – 在人工智能领域,字节跳动再次发力,推出其最新的大规模视觉语言模型(LVLM)——Tarsier2。这款模型在视频理解方面取得了显著突破,不仅能够生成详细且准确的视频描述,还在多个视频理解任务中超越了OpenAI的GPT-4o和Google的Gemini 1.5 Pro等竞争对手。

性能卓越,基准测试领先

根据字节跳动官方发布的信息,Tarsier2在DREAM-1K基准测试中表现出色,其7B模型的F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。更令人瞩目的是,Tarsier2在涵盖视频问答、视频定位、幻觉测试和具身问答等15个公共基准测试中均取得了新的最佳结果,展现了其强大的综合实力。

技术升级,数据驱动

Tarsier2的性能提升得益于三个关键的技术升级:

  1. 大规模预训练数据扩展: 预训练数据从1100万扩展到4000万视频文本对,极大地丰富了数据量和多样性。这些数据包括来自互联网的短视频、电影或电视剧的解说视频,以及通过多模态LLM自动生成的视频描述和问答对。
  2. 细粒度时间对齐的监督微调(SFT): 引入了15万条细粒度标注的视频描述数据,每条描述都对应具体的时间戳。这种时间对齐的训练方式显著提高了模型在视频描述任务中的准确性和细节捕捉能力,同时减少了生成幻觉的可能性。
  3. 直接偏好优化(DPO): 通过模型采样自动构建偏好数据,应用直接偏好优化(DPO)进行训练。基于模型生成的正负样本对,进一步优化模型的生成质量,确保生成的视频描述更符合人类的偏好。

功能强大,应用广泛

Tarsier2具备以下主要功能:

  • 详细视频描述: 能够生成高质量的视频描述,覆盖视频中的各种细节,包括动作、场景和情节。
  • 视频问答: 能够回答关于视频的具体问题,展现出强大的时空理解和推理能力。
  • 视频定位: 可以检测并定位视频中特定事件的发生时间,支持多视频段的定位。
  • 幻觉测试: 通过优化训练策略,显著减少了模型生成虚假信息的可能性。
  • 多语言支持: 支持多种语言的视频描述生成,进一步拓展了其应用场景。
  • 具身问答: 在具身问答(Embodied QA)任务中也表现出色,能结合视觉和语言信息,为具身智能体提供准确的指导。

开源共享,促进发展

字节跳动已将Tarsier2的项目地址公开,包括GitHub仓库(https://github.com/bytedance/tarsier)和arXiv技术论文(https://arxiv.org/pdf/2501.07888)。这一举措表明了字节跳动积极拥抱开源社区,希望与全球开发者共同推动视觉理解技术的发展。

未来展望

Tarsier2的发布标志着字节跳动在视觉理解领域取得了重要进展。其卓越的性能和广泛的应用场景预示着它将在视频内容理解、智能助手、机器人等领域发挥重要作用。随着技术的不断发展和完善,Tarsier2有望为人们带来更加智能、便捷的视频体验。

参考文献


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注