智东西报道,2024年8月6日
近日,国产端侧模型再出新力作,面壁“小钢炮”MiniCPM-V 2.6模型重磅上新。该模型以8B参数,取得20B以下参数的单图、多图、视频理解三项SOTA成绩,首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V,单图理解能力更是越级比肩Gemini 1.5 Pro和GPT-4o mini。
一、端侧多模态能力全面提升,MiniCPM-V 2.6引领行业新标准
MiniCPM-V 2.6模型的发布,标志着我国在端侧AI领域取得了重大突破。该模型经过int4量化后,端侧6G内存即可使用,推理速度高达18tokens/s,比上代模型快33%。同时,支持llama.cpp、ollama、vllm推理,且支持多种语言。
在知识压缩率方面,MiniCPM-V 2.6取得了两倍于GPT-4o的最高多模态大模型像素密度(Token Density)。这一指标直接决定了多模态模型的运行效率,MiniCPM-V 2.6的Token Density在所有多模态模型中位居首位。
二、全面超越GPT-4V,MiniCPM-V 2.6在多模态核心能力上表现卓越
-
单图理解:在综合评测权威平台OpenCompass上,MiniCPM-V 2.6的单图理解能力越级超越Gemini 1.5 Pro和GPT-4o mini。
-
多图联合理解:在多图评测权威平台Mantis-Eval榜单上,MiniCPM-V 2.6的多图联合理解能力实现开源模型SOTA,且超越GPT-4V。
-
视频理解:在视频评测权威平台Video-MME榜单上,MiniCPM-V 2.6的视频理解能力达到端侧SOTA,超越GPT-4V。
此外,在OCRBench上,MiniCPM-V 2.6的OCR性能实现开源+闭源模型SOTA,延续并加强了小钢炮系列最强端侧OCR能力的传统优势。
三、端侧实时视频理解与多图联合理解,MiniCPM-V 2.6引领创新应用
MiniCPM-V 2.6首次将实时视频理解功能运行在端侧,能够实时拍摄并精准识别摄像头捕捉到的场景中的文字。同时,该模型还能快速总结长视频中的重点信息,如识别天气预报视频中的密集文字。
在多图联合理解方面,MiniCPM-V 2.6能够流畅地进行多图多轮理解,如识别并计算多张小票的总账,读懂梗图背后的槽点,甚至能够进行复杂的推理,如调整自行车车座的详细步骤。
四、结语
面壁“小钢炮”MiniCPM-V 2.6模型的发布,不仅全面超越了GPT-4V,更在端侧多模态领域树立了新的行业标准。这一成果充分展示了我国在AI领域的创新实力,为未来的AI应用提供了无限可能。
GitHub地址:https://github.com/OpenBMB/MiniCPM-V
HuggingFace地址:https://huggingface.co/openbmb/MiniCPM-V-2_6
部署教程地址:https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM系列开源地址:https://github.com/OpenBMB/MiniCPM
Views: 1