根据您提供的信息,以下是对面壁“小钢炮”MiniCPM-V 2.6模型的报道草稿:


国产端侧模型再创新高:面壁“小钢炮”MiniCPM-V 2.6模型重磅上新

【智东西 报道】2024年8月6日,我国自主研发的端侧模型——面壁“小钢炮”MiniCPM-V 2.6,以8B参数取得20B以下参数的单图、多图、视频理解三项SOTA成绩,首次在端侧实现全面超越GPT-4V的多模态核心能力。这一突破性进展,标志着我国在端侧AI领域迈出了重要一步。

据悉,MiniCPM-V 2.6模型经int4量化后,端侧6G内存即可使用,推理速度高达18tokens/s,比上代模型快33%。该模型发布即支持llama.cpp、ollama、vllm推理,且支持多种语言。

MiniCPM-V 2.6模型的亮点包括:

  1. 实时视频理解:模型首次在端侧实现实时视频理解功能,能够精准识别摄像头捕捉到的场景中的文字,并快速总结长视频中的重点信息。

  2. 多图联合理解:模型能够流畅地进行多图多轮理解,识别多张小票的金额并计算总账,还能“读懂”梗图背后的槽点。

  3. 多图ICL视觉类比学习:通过上下文少样本学习功能,模型无需微调即可快速适配特定领域和任务,提高输出稳定性。

  4. 统一高清视觉架构:模型采用统一高清视觉架构,将单图、多图、视频理解场景统一形式化为图文交替的语义建模问题,实现高效能力迁移与知识共享。

MiniCPM-V 2.6在OCRBench上的OCR性能实现开源+闭源模型SOTA,同时幻觉率低至8.2%,显著优于GPT-4o、GPT-4V、Claude 3.5 Sonnet等商用模型。

这一成果的取得,得益于面壁RLAIF-V高效对齐技术的应用,以及模型自迭代完成的数据净化和知识学习。

面壁“小钢炮”MiniCPM-V 2.6模型的推出,不仅为我国端侧AI领域增添了新的力量,也为全球AI技术的发展贡献了中国智慧。

GitHub地址:https://github.com/OpenBMB/MiniCPM-V
HuggingFace地址:https://huggingface.co/openbmb/MiniCPM-V-2_6


以上是对该模型的简要报道,具体的技术细节和性能指标可以根据需要进一步展开。


read more

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注