Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海宝山炮台湿地公园的蓝天白云上海宝山炮台湿地公园的蓝天白云
0

上海,[日期] – 人工智能领域迎来一项重大突破。上海交通大学联合美团,成功研发出图文领域首个Token级别的大一统基座模型,名为TokenFD。该模型旨在打破图像和文本之间的模态鸿沟,为更细粒度的多模态理解和应用铺平道路。

背景:多模态大模型的瓶颈

近年来,CLIP、DINO、SAM等视觉基座模型的出现,极大地推动了各个领域任务的统一,也促进了多模态大模型的发展。然而,这些模型大多基于图像级监督或弱语义训练,在处理包含密集文字的文档图像时,表现并不理想。尤其是在细粒度密集预测任务上,现有模型难以准确理解图像中的文字信息,限制了其在OCR、视觉问答等领域的应用。

TokenFD:图文对齐的新突破

为了解决这一难题,上交和美团的研究团队另辟蹊径,实现了图文对齐粒度的新突破。TokenFD的核心优势体现在以下三个方面:

  • 构建业内首个Token级图文数据集TokenIT: 该数据集包含2000万张公开图像以及18亿高质量的Token-Mask对。图像中的每个BPE子词均对应一个像素级掩码。数据体量是CLIP的5倍,且比SAM多出7亿数据对。TokenIT的出现,填补了细粒度图文数据集的空白,为模型训练提供了充足的养料。

  • 构建图文领域首个细粒度大一统基座TokenFD: TokenFD仅需通过简单的一层语言编码,依托亿级的BPE-Mask对,即可打造出细粒度基座。它真正实现了图像Token与语言Token在同一特征空间中的共享,从而支持Token级的图文交互和各种下游任务。

  • TokenVL打通模态GAP: TokenFD进一步开放了图像即文本的语义潜力,首次实现在大语言模型中进行token级的模态对齐,赋能密集型的多模态文档理解任务。

TokenIT:数据驱动的创新

据统计,大约30%至40%的互联网图像包含可识别的文字,在社交媒体平台上这一比例更高。如何有效利用这些数据来增强行业基础AI生态的发展,一直是研究者们持续探索的方向。TokenIT的亮点在于其规模和多样性:

  • 规模与多样性: 包含2000万张图像与18亿Token-Mask对,覆盖自然场景、文档、图表、代码截图、图形用户界面等全场景文本图像类型。
  • 细粒度对齐: 首创BPE分词 + 像素级掩码标注,将文本分割为BPE子词(如「un-」、「-able」),每个子词(token)精确对应图像中的局部区域。

TokenFD:技术实现的亮点

与依赖图像级监督的传统视觉基座模型不同,TokenFD通过自主研发的数亿级BPE-Mask对,首次实现了token级的视觉和语言模态对齐,支持细粒度交互。在实现上,TokenFD并不依赖复杂的语言编码器,而是通过简化的token embedding layer,将视觉编码器提取的视觉特征映射到语言编码空间。

TokenFD在多项任务中表现出色:

  • 支持多任务文本分割(Zero-Shot 性能提升 18.78%)
  • 文本理解(Zero-Shot 性能提升 1.48%)
  • 文本检索(Zero-Shot 性能提升 50.33%)

TokenVL:赋能多模态大模型

研究团队系统性地探索了TokenFD作为基座模型在通用文档智能领域的潜力。实验表明,无需额外训练,TokenFD可直接替换通用视觉基础模型在多模态大语言模型中的图像编码器,从而提升在文本感知、理解与推理方面的准确性。

应用前景:广阔的应用空间

TokenFD的出现,为多模态大模型的发展带来了新的可能性,也为诸多应用场景带来了新的机遇:

  • 商业化应用: 图像安全审查、基于文字的图像检索(适用于搜索引擎、电商平台、社交平台)、知识检索增强的大模型。
  • 文档理解: 提升OCR、文档解析等任务表现。
  • 未来展望: 支持可控文本生成/擦除等更多任务,推动MLLM发展。

开放资源:共同推动技术进步

据悉,论文和demo已发布,相关数据、模型及代码资源将陆续向社区全面开放。

TokenFD的问世,标志着图文领域在模态理解上迈出了重要一步。随着相关资源的开放,我们有理由相信,TokenFD将推动多模态大模型的发展,并在更广泛的领域发挥重要作用。

参考文献

  • 论文地址: https://arxiv.org/pdf/2503.02304 (请注意:此链接指向的是一个示例链接,请根据实际情况进行替换)
  • CLIP: Radford, A., et al. Learning transferable visual models from natural language supervision. International Conference on Machine Learning. PMLR, 2021.
  • DINO: Caron, M., et al. Emerging properties in self-supervised vision transformers. International Conference on Computer Vision. 2021.
  • SAM: Kirillov, A., et al. Segment Anything. arXiv preprint arXiv:2304.02643 (2023).

致谢

感谢上海交通大学和美团的研究团队为本文提供信息和支持。


注: 由于提供的原始信息中包含一个未来日期(2025/03/18),我在撰写新闻时将其替换为“[日期]”,以便您可以根据发布时间进行调整。同时,参考文献中的论文链接指向的是一个示例链接,请根据实际情况进行替换。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注