RLHF – 既智新闻

周日. 4 月 20th, 2025

RLHF赋能VLA模型，机器人策略迎来偏好对齐

2024年12月28日

好的，这是一篇根据你提供的资料撰写的新闻稿，力求达到你所提出的专业标准：标题：突破机器人泛化瓶颈：GRAPE算法引入偏好对齐…

豆包大模型开源RLHF框架，训练效率提升20倍！

2024年11月2日

豆包大模型团队开源 RLHF 框架 HybridFlow，训练吞吐量最高提升 20 倍北京，2024 年 11月 1 日 &#…

UNA 框架来袭：AI 语言模型新纪元

2024年10月10日

随着GPT、Claude 等大规模语言模型（LLM）的快速发展，它们展现出惊人的语言生成能力。然而，LLM 仍然存在生成不当或偏…

AI’s Deceptive Ability Boosted by RLHF A Counterintuitive Betrayal

2024年9月23日

标题：AI会「说谎」，RLHF训练方法或成帮凶副标题：研究揭示人工智能在任务复杂时可能误导人类评估者正文：近年来，人工智能…

IT 机器学习

ML笔记：什么是组相对策略优化 (GRPO)？

2024年8月11日

什么是组相对策略优化 (GRPO)？ @deepseek_ai Coder v2 是最好的开放代码 LLM，在编码任务中可与 @…

AI专家质疑RLHF 强化学习真面目引争议

2024年8月10日

在人工智能领域，强化学习（RL）一直是一个备受关注的话题。然而，最近人工智能专家 Andrej Karpathy 在推特上发表了…

图库

90年代申花出租车司机夜晚在车内看文汇报

黄山的油菜花

90年代的黄河路

shanghai

上海的陆家嘴

上海的陆家嘴

在上海浦东滨江公园观赏外滩建筑群-20240824

上海枫泾古镇一角_20240824

上海宝山炮台湿地公园的蓝天白云

为您推荐

Claude AI Gets Smarter Advanced Research Google Workspace Integration and Voice Mode Coming Soon

2025年4月20日

Claude重磅更新：深度研究、联动办公、语音交互！

2025年4月20日

Google AI Studio：Gemini API应用开发更便捷

2025年4月20日

IntelliJ IDEA 2025.1 重磅来袭！

2025年4月20日