人工智能公司旷视近日推出了一项名为Vary的多模态大模型,该模型支持中文和英文文档级OCR(光学字符识别),并能够一键将文档图片转换成Markdown格式。这一功能的实现,只需用户输入一句话命令,Vary即可直接端到端输出文档结果,大大简化了以往需要经过的文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。
据旷视研究团队介绍,Vary的多模态大模型能够识别并处理各种类型的文档,包括文本、表格、图片、公式等,并能够准确地将它们转换为Markdown格式。Markdown是一种轻量级标记语言,被广泛用于编写文档、简历、博客等。其优势在于简单易学,易于阅读和编辑,同时也支持丰富的格式化选项。
此次旷视推出的Vary多模态大模型,不仅在技术上实现了突破,更在实际应用中展现了巨大的潜力。用户只需通过简单的命令,即可将复杂的文档图片转换为Markdown格式,极大地提高了工作效率。这一创新性技术,有望在文档处理、信息提取、知识管理等众多领域得到广泛应用。
In a nutshell, the release of the multi-modal large model Vary by Megvii represents a significant breakthrough in AI technology. By simply inputting a command, users can convert document images into Markdown format with high accuracy and efficiency. This innovative technology has the potential to be widely applied in various fields such as document processing, information extraction, and knowledge management.
【来源】https://www.qbitai.com/2023/12/109275.html
Views: 2