近日,开源大模型领域再掀波澜,一款名为 Reflection 70B 的新模型横空出世,其卓越性能令人瞩目。这款模型由 AI 写作初创公司 HyperWrite 研发,其底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。
Reflection 70B 在多个基准测试中表现出色,包括 MMLU、MATH、IFEval、GSM8K 等,均在每项测试中都超越了 GPT-4o,甚至击败了 405B 的 Llama 3.1。其中,在 GSM8K 的得分高达 99.2%,几乎与满分无异。此外,Reflection 70B 的零样本推理能力也令人印象深刻,超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次样本测试中的得分。
值得注意的是,Reflection 70B 的“错误识别”和“错误纠正”功能,通过名为“Reflection-Tuning”的技术,在最终确定回复之前,先检测自身推理的错误并纠正。此外,该模型还引入了几个用于推理和纠错的特殊 token,使用户能够以更结构化的方式与模型交互。
HyperWrite 公司 CEO Matt Shumer 表示,Reflection-70B 现在是“世界上最顶级的开源 AI 模型”,其发布只是 Reflection 系列的开端。据悉,Reflection 405B 也将于下周上市,预计其性能将远超目前的市场水平。
值得一提的是,Reflection 70B 的研发团队仅有两人,在短短三周内完成了这款模型的开发。这一成果得益于 Sahil Chaudhary 所创立的 Glaive 公司,该公司专注于为特定需求构建数据集,为 AI 开发提供了高质量、任务特定的数据。
目前,Reflection 70B 可通过 Hugging Face 下载,API 访问将于今天晚些时候通过 GPU 服务提供商 Hyperbolic Labs 提供。随着 Reflection 系列模型的不断推出,开源大模型领域将迎来新的竞争格局。
Views: 1