浙大TableGPT2开源：结构化数据成新模态！

多模态大模型的时代，图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据（包括数据库、数仓、表格、json 等）视为了一种独立模态。基于这一视角，依托 Qwen，他们研发了 TableGPT 系列模型。现如今，这个模型已经更新到了第 2 代，性能表现较之前代已有大幅提升：在某些基准上，TableGPT2 能够媲美甚至优于 GPT-4o！

“目前通用大模型在许多结构化数据相关的任务上的表现仍然较弱，TableGPT2 在相关任务的榜单上铁腕刷榜 —— 各类相关任务刷出去平均 40 个点。”团队负责人陈刚和赵俊博两位教授如是说。

TableGPT2 的诞生源于对当前 LLM 在数据驱动型真实世界应用中局限性的深刻思考。 许多 LLM 的设计目标是端到端运行，没有整合外部数据。但这种方法存在固有缺陷。例如，如果你想用 LLM 来帮助你挑选股票，但如果不给它提供实时的市场信息，它的建议就根本不可能靠谱；更别说必需病人病历和各类过往的指标数据才能做出准确判断的医疗 AI 应用了。

TableGPT2 的目标是直接且高效地整合和处理表格数据，克服当前 LLM 的固有限制，进而实现生产级部署。

该团队认为，表格数据与文本数据一样重要，甚至更重要。 据估计，全球超过 70% 的数据都是以结构化的表格形式存储的，包括数据库和电子表格。开发大规模表格模型极具潜力！

TableGPT2 的表格数据编码器是该团队全新设计的，其重在建模表格数据的结构和内容。 这让 TableGPT2 可以捕获 schema 层面和单元格层面的信息，从而有望为表格大模型带来文本模型和视觉模型所经历过的那种巨大提升。

TableGPT2 是什么？

TableGPT2 是 TableGPT 的新一代版本。初始版本的 TableGPT 就已经引入了结构化特定领域语言（DSL）和专用表格编码器等方法，可以管理复杂的基于表格的查询。在此基础上，TableGPT2 实现了巨大的改进。

TableGPT2 有两种配置：7B 和 72B 版本，它们全都基于 Qwen2.5 系列模型。 训练过程中，该团队使用了超过 860 亿 token 来进行持续预训练（CPT）、超过 43.75 万个表格 – 语言交织的样本来训练编码器、236 万多个高质量「查询 – 表格 – 输出」元组来进行监督式微调。在相关研究中，这种规模是前所未有的，足以保证TableGPT2 满足涉及结构化或表格数据的现代应用的严格要求。

TableGPT2 经历的持续预训练（CPT）、监督式微调（SFT）和支持生产级能力的智能体框架不同于传统 LLM，因为这里的预训练和微调更加注重编程、多轮推理和工具使用。这些特点可确保模型不仅擅长自然语言处理，而且能够很好地处理与表格相关的复杂任务。

TableGPT2 是如何炼成的？

持续预训练： 为了实现 TableGPT2 的目标，该团队首先是通过持续预训练（CPT）来提升模型的编程和推理能力。

表格数据编码器： TableGPT2 创新性地加入了一个单独的模态模块，专门用于读取和解释表格数据。类似于视觉 – 语言模型（VLM），TableGPT2 包含一个表格数据读取模块，其作用是生成与来自文本输入的 token 嵌入相连接的专用嵌入。这个新增模块可让 TableGPT2 更好地捕获表格数据的结构和语义，从而在复杂的商业智能场景中实现更准确的表格理解。

TableGPT2 的开源意味着结构化数据领域的 AI发展将迎来新的突破。 我们可以期待 TableGPT2 在商业智能、数据分析、金融、医疗等领域发挥重要作用，为我们带来更智能、更便捷的数据处理体验。

论文地址： https://arxiv.org/pdf/2411.02059

TableGPT 智能体： https://github.com/tablegpt/tablegpt-agent

Hugging Face： https://huggingface.co/tablegpt/TableGPT2-7B

>>> Read more <<<