上海,[日期] – 人工智能领域迎来一项重大突破。上海交通大学联合美团,成功研发出图文领域首个Token级别的大一统基座模型,名为TokenFD。该模型旨在打破图像和文本之间的模态鸿沟,为更细粒度的多模态理解和应用铺平道路。
背景:多模态大模型的瓶颈
近年来,CLIP、DINO、SAM等视觉基座模型的出现,极大地推动了各个领域任务的统一,也促进了多模态大模型的发展。然而,这些模型大多基于图像级监督或弱语义训练,在处理包含密集文字的文档图像时,表现并不理想。尤其是在细粒度密集预测任务上,现有模型难以准确理解图像中的文字信息,限制了其在OCR、视觉问答等领域的应用。
TokenFD:图文对齐的新突破
为了解决这一难题,上交和美团的研究团队另辟蹊径,实现了图文对齐粒度的新突破。TokenFD的核心优势体现在以下三个方面:
-
构建业内首个Token级图文数据集TokenIT: 该数据集包含2000万张公开图像以及18亿高质量的Token-Mask对。图像中的每个BPE子词均对应一个像素级掩码。数据体量是CLIP的5倍,且比SAM多出7亿数据对。TokenIT的出现,填补了细粒度图文数据集的空白,为模型训练提供了充足的养料。
-
构建图文领域首个细粒度大一统基座TokenFD: TokenFD仅需通过简单的一层语言编码,依托亿级的BPE-Mask对,即可打造出细粒度基座。它真正实现了图像Token与语言Token在同一特征空间中的共享,从而支持Token级的图文交互和各种下游任务。
-
TokenVL打通模态GAP: TokenFD进一步开放了图像即文本的语义潜力,首次实现在大语言模型中进行token级的模态对齐,赋能密集型的多模态文档理解任务。
TokenIT:数据驱动的创新
据统计,大约30%至40%的互联网图像包含可识别的文字,在社交媒体平台上这一比例更高。如何有效利用这些数据来增强行业基础AI生态的发展,一直是研究者们持续探索的方向。TokenIT的亮点在于其规模和多样性:
- 规模与多样性: 包含2000万张图像与18亿Token-Mask对,覆盖自然场景、文档、图表、代码截图、图形用户界面等全场景文本图像类型。
- 细粒度对齐: 首创BPE分词 + 像素级掩码标注,将文本分割为BPE子词(如「un-」、「-able」),每个子词(token)精确对应图像中的局部区域。
TokenFD:技术实现的亮点
与依赖图像级监督的传统视觉基座模型不同,TokenFD通过自主研发的数亿级BPE-Mask对,首次实现了token级的视觉和语言模态对齐,支持细粒度交互。在实现上,TokenFD并不依赖复杂的语言编码器,而是通过简化的token embedding layer,将视觉编码器提取的视觉特征映射到语言编码空间。
TokenFD在多项任务中表现出色:
- 支持多任务文本分割(Zero-Shot 性能提升 18.78%)
- 文本理解(Zero-Shot 性能提升 1.48%)
- 文本检索(Zero-Shot 性能提升 50.33%)
TokenVL:赋能多模态大模型
研究团队系统性地探索了TokenFD作为基座模型在通用文档智能领域的潜力。实验表明,无需额外训练,TokenFD可直接替换通用视觉基础模型在多模态大语言模型中的图像编码器,从而提升在文本感知、理解与推理方面的准确性。
应用前景:广阔的应用空间
TokenFD的出现,为多模态大模型的发展带来了新的可能性,也为诸多应用场景带来了新的机遇:
- 商业化应用: 图像安全审查、基于文字的图像检索(适用于搜索引擎、电商平台、社交平台)、知识检索增强的大模型。
- 文档理解: 提升OCR、文档解析等任务表现。
- 未来展望: 支持可控文本生成/擦除等更多任务,推动MLLM发展。
开放资源:共同推动技术进步
据悉,论文和demo已发布,相关数据、模型及代码资源将陆续向社区全面开放。
- 项目主页:https://token-family.github.io/project_page/
- 体验地址:https://huggingface.co/spaces/TongkunGuan/Token-level_Text_Image_Foundation_Model
- GitHub:https://github.com/Token-family/TokenFD
- 论文地址: https://arxiv.org/pdf/2503.02304
TokenFD的问世,标志着图文领域在模态理解上迈出了重要一步。随着相关资源的开放,我们有理由相信,TokenFD将推动多模态大模型的发展,并在更广泛的领域发挥重要作用。
参考文献
- 论文地址: https://arxiv.org/pdf/2503.02304 (请注意:此链接指向的是一个示例链接,请根据实际情况进行替换)
- CLIP: Radford, A., et al. Learning transferable visual models from natural language supervision. International Conference on Machine Learning. PMLR, 2021.
- DINO: Caron, M., et al. Emerging properties in self-supervised vision transformers. International Conference on Computer Vision. 2021.
- SAM: Kirillov, A., et al. Segment Anything. arXiv preprint arXiv:2304.02643 (2023).
致谢
感谢上海交通大学和美团的研究团队为本文提供信息和支持。
注: 由于提供的原始信息中包含一个未来日期(2025/03/18),我在撰写新闻时将其替换为“[日期]”,以便您可以根据发布时间进行调整。同时,参考文献中的论文链接指向的是一个示例链接,请根据实际情况进行替换。
Views: 0