北京 – 在人工智能领域,字节跳动再次发力,推出其最新的大规模视觉语言模型(LVLM)——Tarsier2。这款模型在视频理解方面取得了显著突破,不仅能够生成详细且准确的视频描述,还在多个视频理解任务中超越了OpenAI的GPT-4o和Google的Gemini 1.5 Pro等竞争对手。
性能卓越,基准测试领先
根据字节跳动官方发布的信息,Tarsier2在DREAM-1K基准测试中表现出色,其7B模型的F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。更令人瞩目的是,Tarsier2在涵盖视频问答、视频定位、幻觉测试和具身问答等15个公共基准测试中均取得了新的最佳结果,展现了其强大的综合实力。
技术升级,数据驱动
Tarsier2的性能提升得益于三个关键的技术升级:
- 大规模预训练数据扩展: 预训练数据从1100万扩展到4000万视频文本对,极大地丰富了数据量和多样性。这些数据包括来自互联网的短视频、电影或电视剧的解说视频,以及通过多模态LLM自动生成的视频描述和问答对。
- 细粒度时间对齐的监督微调(SFT): 引入了15万条细粒度标注的视频描述数据,每条描述都对应具体的时间戳。这种时间对齐的训练方式显著提高了模型在视频描述任务中的准确性和细节捕捉能力,同时减少了生成幻觉的可能性。
- 直接偏好优化(DPO): 通过模型采样自动构建偏好数据,应用直接偏好优化(DPO)进行训练。基于模型生成的正负样本对,进一步优化模型的生成质量,确保生成的视频描述更符合人类的偏好。
功能强大,应用广泛
Tarsier2具备以下主要功能:
- 详细视频描述: 能够生成高质量的视频描述,覆盖视频中的各种细节,包括动作、场景和情节。
- 视频问答: 能够回答关于视频的具体问题,展现出强大的时空理解和推理能力。
- 视频定位: 可以检测并定位视频中特定事件的发生时间,支持多视频段的定位。
- 幻觉测试: 通过优化训练策略,显著减少了模型生成虚假信息的可能性。
- 多语言支持: 支持多种语言的视频描述生成,进一步拓展了其应用场景。
- 具身问答: 在具身问答(Embodied QA)任务中也表现出色,能结合视觉和语言信息,为具身智能体提供准确的指导。
开源共享,促进发展
字节跳动已将Tarsier2的项目地址公开,包括GitHub仓库(https://github.com/bytedance/tarsier)和arXiv技术论文(https://arxiv.org/pdf/2501.07888)。这一举措表明了字节跳动积极拥抱开源社区,希望与全球开发者共同推动视觉理解技术的发展。
未来展望
Tarsier2的发布标志着字节跳动在视觉理解领域取得了重要进展。其卓越的性能和广泛的应用场景预示着它将在视频内容理解、智能助手、机器人等领域发挥重要作用。随着技术的不断发展和完善,Tarsier2有望为人们带来更加智能、便捷的视频体验。
参考文献
- Tarsier2 GitHub Repository: https://github.com/bytedance/tarsier
- Tarsier2 arXiv Paper: https://arxiv.org/pdf/2501.07888
- AI工具集导航: https://www.aiatools.cn/ai-project/tarsier2/
Views: 0