字节跳动冯佳时：大模型如何“看懂”世界？

字节跳动冯佳时：大语言模型在计算机视觉领域的应用、问题和我们的解法 – 新闻稿

字节跳动研究科学家、豆包大模型视觉基础研究团队负责人冯佳时在 AICon 全球人工智能开发与应用大会上发表演讲，探讨了大语言模型在计算机视觉领域的应用、问题和字节跳动的解决方案。

背景：

大语言模型 (LLMs) 在文本理解和生成领域取得了显著进展，但其在理解和生成自然信号（图像、视频）方面仍处于早期探索阶段。字节跳动视觉基础研究团队致力于将 LLMs 应用于计算机视觉领域，以提升 AI 模型理解和生成视觉内容的能力。

演讲内容：

冯佳时首先介绍了计算机视觉的基本问题，包括识别、检测和分割，以及近年来兴起的 AIGC 技术。他指出，传统的计算机视觉方法通常针对不同问题开发不同的模型，而 LLMs 的出现则为视觉领域带来了统一模型的范式。

LLM 在图像理解中的应用与问题：

冯佳时强调了 LLMs 在图像理解中的潜力，但同时也指出了现有多模态模型的局限性，例如缺乏对细节的理解和幻觉现象。他认为，为了让 LLMs 更好地理解视觉内容，需要赋予它们定位能力，即识别图像中特定区域的能力。

带定位能力的 LLM 及相关工作：

冯佳时介绍了 LISA 团队的研究成果，该团队通过让 LLM 输出代表图像中物体位置的特殊 token，赋予了语言模型推理和定位的能力。然而，现有的方法存在一些限制，例如处理速度慢和架构限制。

字节跳动的解决方案：

冯佳时介绍了字节跳动视觉基础研究团队在两个方面的研究方向：

总结和展望：

冯佳时的演讲为我们展示了 LLMs 在计算机视觉领域应用的巨大潜力，同时也指出了该领域面临的挑战。字节跳动视觉基础研究团队正在积极探索解决方案，以推动 LLMs 在视觉领域的进一步发展。

新闻稿发布日期： 2024年9月9日

发布机构： InfoQ

相关链接：

关键词： 大语言模型，计算机视觉，图像理解，AIGC，字节跳动，豆包大模型，AICon