强化 – 既智新闻

“`markdown 测试时强化学习：清华&上海AI Lab突破，无需标注数据大幅提升大语言模型数学能力引…

智能新闻

强化学习未来：经验流而非算法？

2025年4月21日

“`markdown 强化学习范式巨变：Sutton联手谷歌RL副总裁，预言“经验流”时代到来引言：在人工智能领…

智能新闻

图灵奖得主新作：AI发展新方向！

2025年4月17日

旧金山 – 人工智能领域正站在一个变革的十字路口。在人类生成数据驱动了人工智能取得惊人进步之后，未来的发展方向在哪里？图灵奖得主…

智能新闻

强化学习大师课：AI新纪元开启？

2025年4月15日

引言：人工智能的浪潮正以惊人的速度席卷全球，而强化学习（Reinforcement Learning, RL）作为人工智能领域的…

智能新闻

灵巧手战胜杂乱！NUS发布机器人抓取新策略

2025年4月13日

“`markdown 灵巧手也能从容应对杂乱场景！NUS 邵林团队发布 DexSinGrasp，基于强化学习实现物体…

智能新闻

商汤日日新V6：多模态强化学习，思维链突破！

2025年4月12日

北京 – 在人工智能领域，多模态大模型正成为新的竞争焦点。近日，商汤科技正式发布了其最新一代融合多模态模型「日日新 SenseN…

智能新闻

蚂蚁清华联手开源强化学习框架AReaL-boba

2025年4月10日

“`markdown 蚂蚁联合清华开源强化学习训练框架 AReaL-boba：低成本、高效能，推动AI普惠化北京讯…

智能新闻

蚂蚁清华联手开源强化学习框架AReaL-boba

2025年4月10日

好的，没问题。我将根据您提供的信息，并结合我作为资深新闻记者和编辑的经验，撰写一篇高质量、深度解析蚂蚁联合清华开源强化学习训练框…

智能新闻

强化学习赋能！火山引擎Q-Insight深度理解画质

2025年4月9日

北京 – 在人工智能生成内容（AIGC）蓬勃发展的今天，如何让机器“看懂”并评估视频画质，成为行业关注的焦点。近日，…

智能新闻

vivo开源DeepSeek R1，GUI智能体迎来新突破

2025年4月9日

北京，2025年4月8日 – 在人工智能与人机交互领域，GUI（图形用户界面）智能体的研究正日益受到关注。近日，vi…

智能新闻

AI研究者来了！交大、SII发布强化学习模型

2025年4月4日

上海 – 上海交通大学与上海人工智能研究院（SII）联合发布了DeepResearcher，一款开创性的AI研究模型…

智能新闻

厦大CPPO：强化学习速度狂飙，超越GRPO八倍！

2025年4月2日

摘要：厦门大学纪荣嵘团队近日推出了一种名为CPPO（Completion Pruning Policy Optimizatio…

智能新闻

ICLR 2025：自主进化科研智能体问世！

2025年4月1日

好的，根据您提供的信息，我将撰写一篇新闻报道，力求专业、深入且引人入胜。标题：科研范式巨变：西湖大学等机构发布CycleRes…

智能新闻

蚂蚁清华联手开源强化学习框架AReaL-boba

2025年4月1日

北京讯 – 在人工智能领域，强化学习（Reinforcement Learning, RL）作为一种重要的机器学习方法，正日益受…

智能新闻

蚂蚁清华联手开源强化学习框架AReaL-boba

2025年4月1日

北京，2024年5月15日 – 在人工智能领域，强化学习（Reinforcement Learning, RL）作为一种重要的机…

智能新闻

强化学习新突破：千层网络助力机器人性能飙升50倍

2025年3月23日

华盛顿/北京 – 人工智能领域正在经历一场深刻的变革，而强化学习（RL）作为其中的关键分支，也迎来了新的突破。近日，…

智能新闻

元强化微调登场！LLM推理能力再突破

2025年3月14日

匹兹堡/北京 – 在大语言模型（LLM）推理能力提升的竞赛中，卡内基梅隆大学（CMU）的研究人员近日推出了一种名为“…

智能新闻

7B模型纯强化学习攻克数独难题！

2025年3月12日

机器之心报道人工智能领域再传捷报！近日，技术博主Hrishbh Dalal通过实践证明，仅需强化学习，7B参数的语言模型也能…

智能新闻

DeepSeek R1视觉强化微调开源！

2025年3月6日

好的，根据你提供的信息，我将撰写一篇关于Visual-RFT的新闻报道，力求专业、深入且引人入胜。标题：视觉强化微调迎来突破！…

智能新闻

强化学习先驱Sutton、Barto荣膺图灵奖

2025年3月6日

纽约，2024年3月5日 – 计算机领域最高荣誉——ACM图灵奖今日揭晓，授予强化学习领域的两位奠基人：安德鲁·巴托…

智能新闻

抗体设计新突破：AbNovo强化生成模型问世

2025年3月5日

“`markdown AI赋能抗体药物研发：上海交大等机构发布AbNovo模型，实现多目标、多约束抗体从头设计上海…

智能新闻

X-R1：强化学习低成本训练新突破

2025年2月27日

引言：人工智能的浪潮席卷全球，大型语言模型（LLM）作为其中的核心驱动力，正深刻地改变着各行各业。然而，高昂的训练成本一直是制…

智能新闻

机器狗3倍提速！AI强化学习突破Scaling Law瓶颈

2025年2月24日

好的，根据你提供的信息，我将撰写一篇新闻报道，力求深入、专业且引人入胜。机器狗速度突破：强化学习解锁电池功率限制，未来或上演“…

智能新闻

LLM性能飙升：强化学习解锁DeepSeek、Kimi秘密

2025年2月21日

“`markdown 强化学习赋能大语言模型：OpenAI引领，DeepSeek与Kimi揭示性能跃升新路径摘要：…

智能新闻

大模型强化学习：数据并非越多越好

2025年2月21日

人工智能领域长期信奉“更大即更强”的理念，但在大模型强化学习方面，一项最新研究给出了令人意外的结论：数据的学习影响力远比数量重要…

智能新闻

OpenAI发力！强化学习助LLM摘金夺银

2025年2月21日

“`markdown OpenAI 揭秘 AI 编程金牌之路：强化学习成 LLM 性能关键，中国团队发现“思维链”秘…

智能新闻

X-R1：强化学习低成本训练新突破

2025年2月18日

导语：在人工智能领域，大规模语言模型（LLM）正以前所未有的速度发展，并在自然语言处理（NLP）的各个领域展现出强大的能力。然…

智能新闻

大模型测试时计算优化：降本增效新突破

2025年2月11日

机器之心报道人工智能领域正面临着一个关键的瓶颈：如何更有效地利用现有数据和计算资源来训练大型语言模型（LLM），以应对日益复…

智能新闻

DeepSeek R1揭秘强化学习，大神卡帕西倾囊相授！

2025年2月9日

“`markdown AI大神Karpathy深度解读DeepSeek R1：三小时视频揭秘大模型强化学习，零基础也…

智能新闻

清华教授解读DeepSeek：大模型RL技术突破

2025年2月9日

引言：在人工智能领域，每一次技术的突破都如同划破夜空的流星，短暂却耀眼。近日，DeepSeek发布了其最新大模型R1，引发了业…

智能新闻

DeepSeek R1-Zero：纯强化学习开源推理模型问世

2025年2月6日

北京 – 在人工智能领域，训练模型的传统方式往往依赖于大量的标注数据，并通过监督微调（SFT）来优化性能。然而，De…

智能新闻

DeepSeek R1-Zero：纯强化学习驱动开源推理新突破

2025年2月6日

北京 – DeepSeek 近日发布了其最新的开源推理模型 R1-Zero，这款模型最引人注目的特点在于其完全依赖纯强化学习（R…

智能新闻

Kimi硬刚多模态，训练细节首曝，强化学习新突破！

2025年1月22日

引言：人工智能领域，一场新的技术竞赛正在激烈上演。当人们还在惊叹于大型语言模型（LLM）的飞速发展时，多模态模型的崛起已然成为…

智能新闻

DeepSeek开源推理模型：纯强化学习打造

2025年1月22日

引言：人工智能领域正经历一场前所未有的变革，而DeepSeek团队最新发布的开源推理模型R1-Zero，无疑是这场变革中的一颗…

智能新闻

深度求索：纯强化学习驱动开源推理模型R1-Zero问世

2025年1月22日

好的，下面我将根据你提供的信息，结合我作为资深新闻记者和编辑的经验，撰写一篇关于DeepSeek R1-Zero的高质量新闻稿。…

智能新闻

多智能体强化学习迎Hard模式，浙大南栖仙策联手挑战

2025年1月6日

好的，请看我为你撰写的新闻稿，这篇稿件融合了深度分析和专业视角，希望能满足你的要求：标题：多智能体强化学习算法评估迎来“Har…

智能新闻

Kimi视觉模型k1发布，或改写AI技术范式

2024年12月18日

引言：人工智能领域，一场新的技术革命正在悄然发生。继文本生成模型之后，视觉推理正成为 AI 竞争的新焦点。近日，中国人工智能初…

智能新闻

OpenAI强化学习：造神还是灭霸？ OpenAI新算法：专家模型诞生？ OpenAI发布强化微调新方法 AI新纪元：OpenA

2024年12月9日

OpenAI强化微调：通往科学新纪元，抑或潘多拉魔盒？引言：2024年12月6日，OpenAI发布了新的强化微调（Reinfo…

智能新闻

OpenAI再放大招：少量样本训练专家模型或OpenAI 12连发：专家模型训练新突破 OpenAI：少量数据训练出强大AI模

2024年12月8日

OpenAI 12连发：强化微调，开启AI模型定制新纪元引言： OpenAI 的“12天计划”第二弹重磅来袭，并非简单的产品更…

智能新闻

AI突破：语言强化学习框架问世自然语言强化学习取得重大突破强化学习新突破：可处理语言反馈 AI里程碑：语言强化学习框架诞生

2024年12月8日

突破语言壁垒：自然语言强化学习（NLRL）框架开启AI新纪元引言：想象一下，一个AI系统不仅能像AlphaGo一样精通围棋，…

智能新闻

流式深度学习：AI迎来突破！或：深度学习流式突破：AI新纪元？或：强化学习大师力荐：AI流式学习奏效

2024年11月30日

流式深度强化学习的突破：Stream-X 算法挑战批量学习霸权引言：强化学习，这一模拟人类学习过程的强大技术，长期以来被批量…

智能新闻

中科大AI突破：修复多类数据损坏

2024年11月18日

中科大MIRA团队TRACER：攻克离线强化学习数据损坏难题，赋能机器人与自动驾驶引言想象一下，一辆自动驾驶汽车在训练过程中…

智能新闻

Meta用AI优化数据中心，迈向绿色科技

2024年11月9日

Meta 利用强化学习优化数据中心可持续性，减少能源消耗和用水量 Meta 正在利用强化学习（RL）来优化其数据中心的环境控制策…

智能新闻

字节跳动推出AGILE框架：强化学习赋能智能Agent全面升级

2024年10月1日

字节跳动推出强化学习LLM Agent框架AGILE：赋予AI更强大的学习和解决问题能力引言随着大语言模型（LLM）的快速发…

智能新闻

谷歌DeepMind发布多轮强化学习新方法SCoRe

2024年9月24日

引言近日，谷歌DeepMind宣布推出一种名为SCoRe（Self-Correction via Reinforcement …

智能新闻

DeepMind新作：大模型自我纠错，数学编程能力暴涨！

2024年9月22日

在人工智能领域，语言模型的自我纠正能力一直被视为一项重要的技术挑战。近期，来自Google DeepMind的研究团队在这一领域…

智能新闻

中信证券力挺OpenAI：推理升级，强化学习新机遇引关注

2024年9月20日

OpenAI o1 推理升级，强化学习成新机遇中信证券研报指出，OpenAI 最新发布的 o1 模型在思维链和强化学习方面取得…

智能新闻

Self-play大放异彩：OpenAI强化学习新灵魂揭秘

2024年9月19日

引言近年来，人工智能领域取得了令人瞩目的进展，特别是在强化学习和大语言模型方面。OpenAI最新发布的o1模型，凭借其强大的通…

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

标签： 强化

为您推荐

标签：强化