Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

字节跳动冯佳时:大语言模型在计算机视觉领域的应用、问题和我们的解法 – 新闻稿

字节跳动研究科学家、豆包大模型视觉基础研究团队负责人冯佳时在 AICon 全球人工智能开发与应用大会上发表演讲,探讨了大语言模型在计算机视觉领域的应用、问题和字节跳动的解决方案。

背景:

大语言模型 (LLMs) 在文本理解和生成领域取得了显著进展,但其在理解和生成自然信号(图像、视频)方面仍处于早期探索阶段。字节跳动视觉基础研究团队致力于将 LLMs 应用于计算机视觉领域,以提升 AI 模型理解和生成视觉内容的能力。

演讲内容:

冯佳时首先介绍了计算机视觉的基本问题,包括识别、检测和分割,以及近年来兴起的 AIGC 技术。他指出,传统的计算机视觉方法通常针对不同问题开发不同的模型,而 LLMs 的出现则为视觉领域带来了统一模型的范式。

LLM 在图像理解中的应用与问题:

冯佳时强调了 LLMs 在图像理解中的潜力,但同时也指出了现有多模态模型的局限性,例如缺乏对细节的理解和幻觉现象。他认为,为了让 LLMs 更好地理解视觉内容,需要赋予它们定位能力,即识别图像中特定区域的能力。

带定位能力的 LLM 及相关工作:

冯佳时介绍了 LISA 团队的研究成果,该团队通过让 LLM 输出代表图像中物体位置的特殊 token,赋予了语言模型推理和定位的能力。然而,现有的方法存在一些限制,例如处理速度慢和架构限制。

字节跳动的解决方案:

冯佳时介绍了字节跳动视觉基础研究团队在两个方面的研究方向:

  • 利用 LLM 帮助 AI 模型更好地理解视觉内容: 团队正在探索新的方法,以克服现有模型的局限性,并提高 LLM 在图像理解中的精度和效率。
  • AIGC 研究: 团队致力于开发更强大的视觉生成模型,以实现从文字描述到视觉内容的精准转换。

总结和展望:

冯佳时的演讲为我们展示了 LLMs 在计算机视觉领域应用的巨大潜力,同时也指出了该领域面临的挑战。字节跳动视觉基础研究团队正在积极探索解决方案,以推动 LLMs 在视觉领域的进一步发展。

新闻稿发布日期: 2024年9月9日

发布机构: InfoQ

相关链接:

  • AICon 全球人工智能开发与应用大会官网:https://qcon.infoq.cn/2024/shanghai/track/1721

关键词: 大语言模型,计算机视觉,图像理解,AIGC,字节跳动,豆包大模型,AICon


>>> Read more <<<

Views: 1

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注