1. 背景与挑战
在当前大模型技术迅速发展的背景下,数据已成为构建企业大模型知识库、优化训练与微调,乃至驱动模型创新的核心要素。企业积累的宝贵知识广泛散布于形式多样的电子文档之中,这些文档不仅格式多样,其内容质量亦呈现出显著的差异性。对海量数据进行精细化的清洗与预处理工作,已成为提升数据价值、确保模型精准高效的关键一环。
2. 浩鲸科技鲸智文档大模型发布
9月20日,老牌数字化转型技术服务提供商浩鲸科技在云栖大会期间,成功举行了鲸智大模型技术体系发布会。此次发布的“鲸智文档大模型”,专门针对企业文档场景构建了一组垂直领域模型。浩鲸科技大模型创新中心总经理王玉木表示,鲸智文档大模型与同类产品最大的差异在于,它提供了可快速价值落地的整体性方案,不仅包含了文档大模型能力,还提供了多模态文档工具链 DocChain 和开箱即用的软硬件一体机,基于垂直模型能力和软硬件相互配合,可帮助企业实现文档的知识抽取、知识融合,直至知识推理和问答的全流程覆盖。
3. 鲸智文档大模型的实践逻辑
3.1 底层:精准知识提取
浩鲸科技成立于2003年,立足于电信行业,智慧触角已触及政务、电力、泛零售等多个领域,迄今已为全球80多个国家和地区的电信运营商、700+政企客户提供全栈数智化产品技术服务。“鲸智文档大模型” 始于浩鲸科技20余年的数据治理、知识沉淀能力积累。作为垂直领域模型,它从端到端解决场景需求的视角出发,结合了大小模型协作等思路,基于基础大模型构建一套紧密配合的模型组合,主要分三个层面:
- 底层:精准知识提取
- 通过标题提取、表格提取、版面分析等多种模型,精准捕捉文档中的关键信息,确保内容的完整提取。
- 知识密度分类与语义压缩模型的加入,进一步提升了知识提取的效率与质量。
- 标题提取模型:基于基础大模型进行微调训练,强化了标题识别能力,能够用于从正文中识别标题,补全缺失标题等场景,有效解决了企业文档标题和目录不规范,甚至标缺失的问题。
3.2 中间层:深度知识融合
- 中间层:深度知识融合
- 在知识块的基础上,进行抽象总结与多模态数据关联,将碎片化知识整合为系统化的知识体系,并映射至高维向量空间,为后续的知识推理奠定坚实基础。
- 主要模型包括:
- 文本总结模型:生成短文本摘要,为知识萃取提供支持。
- 文本向量模型:提供更加准确的文本特征提取能力,为知识的召回提供保障。
- 界面识别模型:图片特征提取模型,支持图文向量对齐。
- 文本重排模型:对多模态,多路径召回的文本内容,进行重排序,进一步提升回答的准确率。
- 界面识别模型:强化了对用户手册中最常见软件界面的支持,主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科技研发云平台,将软件测试报告中的软件界面图片和内容来构建训练集,并使用反转、随机截取、变形、叠加反光等手段扩增图片库,实现了一个支持软件界面匹配的图片识别模型,解决了现有大模型在软件界面识别方面效果一般的问题。
3.3 上层:智能知识推理
- 上层:智能知识推理
- 构建了知识问答模型和 BPO 优化模型。
- 面向知识问答任务场景,构建了针对场景优化的问答模型,强化根据参考知识信息进行精准回答,减少幻觉。
- 通过优化用户的输入提示(prompt)来提高模型输出与人类偏好的对齐程度,提升问答的准确性。
4. DocChain:文档处理的智慧引擎
为深度赋能企业用户,浩鲸科技依托先进的鲸智文档大模型,匠心打造了多模态文档工具链——DocChain。该产品不仅实现了企业文档向宝贵知识资产的转化,更构建了一个集文档知识精准提取、高效检索与智能问答对话于一体的大模型知识服务平台。
- 智能提取,精准高效:集成前沿 NLP 算法与模型,实现文档处理速度与精度的双重飞跃。抽取精度高达98%,问答响应准确率超越80%,让信息获取更加智能、便捷。
- 格式兼容,全面广泛:拥抱多样化文档生态,支持超过30种文件格式,特别兼容OFD等国产信创标准,确保各类文档无缝接入,处理高效且精准,满足企业多样化需求。
- 多模态处理,深度解析:深度解析文档内容,无论是文本、目录、图片、表格、链接还是页码,均能精准拆分与提取。支持多元模态检索,无论是文找文、文找图,还是图找图,均能游刃有余。
5. 一体机:解决企业私域场景下低成本上线大模型的诉求
浩鲸科技为解决客户落地大模型过程中算力硬件缺乏、技术人员少、安全要求高等难题,同时推出了文档大模型软硬件一体机。一体机内置了高性能算力,并且预装了大模型以及DocChain应用,可为企业快速部署和验证智慧文档处理服务。
- 从部署上来说:文档大模型一体机具备开箱即用、数据安全可控、性能无忧、快速集成等几个特点,专为轻量级场景设计,私有化部署解决企业隐私保护、数据安全等痛点,低成本实现企业内部大模型快速上线,覆盖通用知识检索、文档问答、服务支撑及品牌宣传等,可帮助企业迅速构建专属大模型问答系统。
6. 总结
随着基础大模型的发展,以及模型增量训练的知识冲突问题日益凸显,RAG(Retrieval-Augmented Generation)逐渐成为企业智能知识库的标准解决方案,然而知识召回的准确率和完整性成为了影响问答效果的关键因素。鲸智文档大模型,借鉴了“大模型 + 小模型”的思路,基于基座大模型构建了一套大小模型的组合,形成了一套垂直大模型,可以端到端实现垂直应用场景的需求。当前,鲸智文档大模型在多模态识别、检索和精准召回上做了很多的尝试,也取得了一定的成果。AI大模型的迅速发展,让企业沉淀的大量文档的知识理解和处理带来了转机,浩鲸科技正通过持续的技术创新与产品优化,推动大模型技术与企业领域知识深度融合,实现企业文档向有价值的资产转化,为企业创造更多价值。
Views: 0