SmolDocling：轻量级多模态文档处理新星

摘要： 一款名为SmolDocling的轻量级多模态文档处理模型横空出世，以其高效、快速、低资源消耗的特性，有望加速文档数字化进程，并在移动设备和低资源环境下实现广泛应用。该模型由ds4sd团队开发，参数量仅为256M，却能实现图像文档到结构化文本的端到端转换，支持文本、公式、图表等多种元素识别，并与Docling无缝集成。

北京，[日期] – 在人工智能技术日新月异的今天，文档处理领域迎来了一位新的“选手”——SmolDocling。这款由ds4sd团队开发的轻量级多模态文档处理模型，以其高效、快速、低资源消耗的特性，引发了业界的广泛关注。

传统的文档数字化往往依赖于复杂的OCR（光学字符识别）系统和人工校对，耗时耗力。而SmolDocling的出现，旨在改变这一现状。据了解，SmolDocling-256M-preview是仅包含256M参数的视觉语言模型，专为文档OCR和转换而设计。它能在消费级GPU上快速处理文档，使用不到500MB的显存，在A100 GPU上处理一页文档仅需0.35秒。

技术解析：轻量级背后的强大引擎

SmolDocling的轻量级设计并非以牺牲性能为代价。相反，它巧妙地运用了多种先进技术，实现了效率与性能的平衡。

视觉骨干网络： 模型采用了SigLIP base patch-16/512作为视觉骨干网络，该网络参数量为93M，能高效地处理图像输入。通过像素压缩技术，每个512×512的图像块被压缩为64个视觉标记，显著降低了计算资源需求。
文本编码器： SmolDocling-256M-preview 使用 SmolLM-2 作为文本编码器，编码器参数量为 135M，能处理文本输入并与视觉信息进行融合。
多模态融合与输出： 模型能接收图像和文本的多模态输入，生成结构化的文本输出。支持多种文档处理功能，包括将文档图像转换为结构化文本、提取图表和表格信息、将数学公式转换为 LaTeX 格式等。
优化的数据集与训练策略： SmolDocling-256M-preview 的训练数据集包括科学和非科学文档，文档理解占比达到 41%。训练过程中采用了更高的像素标记率（4096 像素/标记），相比之前的 1820 像素/标记，显著提升了效率。

应用场景：潜力无限，未来可期

SmolDocling的应用场景十分广泛，涵盖了文档转换与数字化、科学与非科学文档处理、快速OCR与布局识别等多个领域。

文档转换与数字化： SmolDocling-256M-preview 能高效地将图像形式的文档转换为结构化的文本格式，同时保留文档的原始布局和复杂元素（如代码块、数学公式、图表等）。支持多种输出格式，包括 Markdown、HTML 等，适用于文档的数字化处理。
科学与非科学文档处理： 能处理非科学内容（如商业文档、专利文件等）。识别和提取文档中的关键信息，如公式、图表和表格。
快速 OCR 与布局识别： SmolDocling-256M-preview 提供高效的光学字符识别（OCR）功能，能从图像中准确提取文本，保留文档的结构和元素边界框。
移动与低资源设备支持： SmolDocling-256M-preview 可以在移动设备或资源受限的环境中运行，例如智能手机或便携式计算机。

更值得一提的是，SmolDocling与Docling完全兼容，支持将结果转换为多种格式（如 Markdown、HTML 等），并支持多种指令，如将页面转换为 Docling 格式、将图表转换为表格、将公式转换为 LaTeX 等。

专家观点：文档处理领域的革新

“SmolDocling的出现，无疑是文档处理领域的一项重要革新，”一位不愿透露姓名的AI专家表示，“它不仅降低了文档数字化的门槛，也为移动设备和低资源环境下的应用提供了可能。未来，随着技术的不断发展，SmolDocling有望在学术研究、商业分析、知识管理等领域发挥更大的作用。”

未来展望：开源与合作，共筑文档处理新生态

目前，SmolDocling已在HuggingFace模型库上开源，并发布了相应的技术论文。ds4sd团队表示，希望通过开源和合作，吸引更多的开发者参与到SmolDocling的开发和应用中来，共同构建一个更加完善、高效的文档处理生态。

参考资料：

HuggingFace模型库：https://huggingface.co/ds4sd/SmolDocling-256M-preview
arXiv技术论文：https://arxiv.org/pdf/2503.11576

（完）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

SmolDocling：轻量级多模态文档处理新星

作者智能小编

相关文章

豆包1.5发布“视觉版”！大模型多模态推理时代来临

Gemma 3 QAT Cutting-Edge AI Now Runs on Consumer GPUs

Gemma 3 QAT：消费级GPU上的AI新突破

发表回复取消回复

为您推荐