模态GAP终结？图文领域Token级大一统基座问世

上海，[日期] – 人工智能领域迎来一项重大突破。上海交通大学联合美团，成功研发出图文领域首个Token级别的大一统基座模型，名为TokenFD。该模型旨在打破图像和文本之间的模态鸿沟，为更细粒度的多模态理解和应用铺平道路。

背景：多模态大模型的瓶颈

近年来，CLIP、DINO、SAM等视觉基座模型的出现，极大地推动了各个领域任务的统一，也促进了多模态大模型的发展。然而，这些模型大多基于图像级监督或弱语义训练，在处理包含密集文字的文档图像时，表现并不理想。尤其是在细粒度密集预测任务上，现有模型难以准确理解图像中的文字信息，限制了其在OCR、视觉问答等领域的应用。

TokenFD：图文对齐的新突破

为了解决这一难题，上交和美团的研究团队另辟蹊径，实现了图文对齐粒度的新突破。TokenFD的核心优势体现在以下三个方面：

构建业内首个Token级图文数据集TokenIT： 该数据集包含2000万张公开图像以及18亿高质量的Token-Mask对。图像中的每个BPE子词均对应一个像素级掩码。数据体量是CLIP的5倍，且比SAM多出7亿数据对。TokenIT的出现，填补了细粒度图文数据集的空白，为模型训练提供了充足的养料。
构建图文领域首个细粒度大一统基座TokenFD： TokenFD仅需通过简单的一层语言编码，依托亿级的BPE-Mask对，即可打造出细粒度基座。它真正实现了图像Token与语言Token在同一特征空间中的共享，从而支持Token级的图文交互和各种下游任务。
TokenVL打通模态GAP： TokenFD进一步开放了图像即文本的语义潜力，首次实现在大语言模型中进行token级的模态对齐，赋能密集型的多模态文档理解任务。

TokenIT：数据驱动的创新

据统计，大约30%至40%的互联网图像包含可识别的文字，在社交媒体平台上这一比例更高。如何有效利用这些数据来增强行业基础AI生态的发展，一直是研究者们持续探索的方向。TokenIT的亮点在于其规模和多样性：

规模与多样性： 包含2000万张图像与18亿Token-Mask对，覆盖自然场景、文档、图表、代码截图、图形用户界面等全场景文本图像类型。
细粒度对齐： 首创BPE分词 + 像素级掩码标注，将文本分割为BPE子词（如「un-」、「-able」），每个子词（token）精确对应图像中的局部区域。

TokenFD：技术实现的亮点

与依赖图像级监督的传统视觉基座模型不同，TokenFD通过自主研发的数亿级BPE-Mask对，首次实现了token级的视觉和语言模态对齐，支持细粒度交互。在实现上，TokenFD并不依赖复杂的语言编码器，而是通过简化的token embedding layer，将视觉编码器提取的视觉特征映射到语言编码空间。

TokenFD在多项任务中表现出色：

支持多任务文本分割（Zero-Shot 性能提升 18.78%）
文本理解（Zero-Shot 性能提升 1.48%）
文本检索（Zero-Shot 性能提升 50.33%）

TokenVL：赋能多模态大模型

研究团队系统性地探索了TokenFD作为基座模型在通用文档智能领域的潜力。实验表明，无需额外训练，TokenFD可直接替换通用视觉基础模型在多模态大语言模型中的图像编码器，从而提升在文本感知、理解与推理方面的准确性。

应用前景：广阔的应用空间

TokenFD的出现，为多模态大模型的发展带来了新的可能性，也为诸多应用场景带来了新的机遇：

商业化应用： 图像安全审查、基于文字的图像检索（适用于搜索引擎、电商平台、社交平台）、知识检索增强的大模型。
文档理解： 提升OCR、文档解析等任务表现。
未来展望： 支持可控文本生成/擦除等更多任务，推动MLLM发展。

开放资源：共同推动技术进步

据悉，论文和demo已发布，相关数据、模型及代码资源将陆续向社区全面开放。

项目主页：https://token-family.github.io/project_page/
体验地址：https://huggingface.co/spaces/TongkunGuan/Token-level_Text_Image_Foundation_Model
GitHub：https://github.com/Token-family/TokenFD
论文地址: https://arxiv.org/pdf/2503.02304

TokenFD的问世，标志着图文领域在模态理解上迈出了重要一步。随着相关资源的开放，我们有理由相信，TokenFD将推动多模态大模型的发展，并在更广泛的领域发挥重要作用。

参考文献

论文地址: https://arxiv.org/pdf/2503.02304 (请注意：此链接指向的是一个示例链接，请根据实际情况进行替换)
CLIP: Radford, A., et al. Learning transferable visual models from natural language supervision. International Conference on Machine Learning. PMLR, 2021.
DINO: Caron, M., et al. Emerging properties in self-supervised vision transformers. International Conference on Computer Vision. 2021.
SAM: Kirillov, A., et al. Segment Anything. arXiv preprint arXiv:2304.02643 (2023).

致谢

感谢上海交通大学和美团的研究团队为本文提供信息和支持。

注：由于提供的原始信息中包含一个未来日期（2025/03/18），我在撰写新闻时将其替换为“[日期]”，以便您可以根据发布时间进行调整。同时，参考文献中的论文链接指向的是一个示例链接，请根据实际情况进行替换。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

模态GAP终结？图文领域Token级大一统基座问世

作者智能小编

相关文章

智谱AI Agent：深度研究，操作自如，颠覆未来？

吉卜力风网页：Cursor与Claude-3.7共绘梦幻

Drinks Industry Bets on the Future at “Coldest in a Decade” Trade Show

发表回复取消回复

为您推荐