黄山的油菜花黄山的油菜花

导语:近日,开源大模型领域迎来重大突破,一家小创业团队开发的Reflection 70B模型在多项评测中超越GPT-4o,特别是数学基准GSM8K上取得99.2分的高分,引起业界广泛关注。

正文:
近日,开源大模型新王Reflection 70B横空出世,由一家小创业团队研发。该模型采用全新训练技术,使AI在推理过程中能够纠正自己的错误和幻觉。在数r测试中,Reflection 70B主动在<反思>标签中纠正了自己最初犯下的错误。

在官方评测中,Reflection 70B全面超越最强开源模型Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,尤其在数学基准GSM8K上取得99.2分的高分,引发OpenAI科学家、德扑AI之父Noam Brown的关注。

Reflection 70B的成功离不开其采用的Reflection-Tuning训练方法,该方法让模型在生成文本过程中进行自我反思,检测并纠正推理中的错误。训练数据来自GlaiveAI平台生成的合成数据,Reflection 70B基于Llama 3.1 70B Instruct,可使用与其它Llama模型相同的代码、pipeline等进行采样。

值得注意的是,Reflection 70B在测试中展现出强大的能力,即使面对本身答案错误的问题,也能给出正确的答案。这表明其99.2%的准确率并非来自于记忆测试集。

据悉,Reflection 70B的权重已公开,API访问将于今天晚些时候由Hyperbolic Labs提供。下周,官方还将发布更大规模的Reflection 405B模型,预计其性能将大幅优于Sonnet和GPT-4o。

Reflection 70B的背后是一支小团队,由HyperWriteAI的CEO Mutt Shumer带领。Mutt Shumer是一位连续创业者,毕业于美国锡拉丘兹大学,现任OthersideAI的联合创始人兼CEO。OthersideAI是一家AI应用公司,致力于开发全球最先进的自动补全工具。

目前,Reflection 70B的试玩版本已上线,但暂时无法访问。感兴趣的网友可以先收藏以下链接:https://reflection-playground-production.up.railway.app/

结语:
开源大模型新王Reflection 70B的崛起,标志着AI领域的一次重大突破。相信在不久的将来,Reflection 70B将在更多领域发挥重要作用,为人类带来更多便利。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注