大模型 – 既智新闻

周六. 4 月 12th, 2025

AI AI生成机器学习

ML笔记：在大语言模型中，监督微调（SFT）和对齐（PPO、DPO）有什么不同的作用？

2024年8月15日

在大语言模型（LLM）中，监督微调（SFT）和对齐（PPO、DPO）是两种不同的技术手段，它们在模型优化和任务适应上有不同的作用…

IT 机器学习

ML笔记：什么是组相对策略优化 (GRPO)？

2024年8月11日

什么是组相对策略优化 (GRPO)？ @deepseek_ai Coder v2 是最好的开放代码 LLM，在编码任务中可与 @…

AI生成机器学习

ML笔记：peft库使用qlora微调llm，参数r和lora_alpha的作用和建议的配置值

2024年8月10日

在使用QLoRA算法微调大型语言模型（LLM）时，参数r和lora_alpha起着关键作用。以下是它们的具体作用和建议的配置值：…

AI生成机器学习

ML笔记：使用huggingface 开发的trl库进行大模型微调时，SFTTrainer 怎么配置模型结果保存频次的参数

2024年8月10日

在使用 Hugging Face 开发的 TRL 库进行大模型微调时，可以通过配置 SFTTrainer 的参数来控制模型结果保…

诺奖得主萨金特：大模型重塑经济学未来

2024年7月22日

在科技与经济的交汇点上，一场关于人工智能的深度对话正在悄然展开。机器之心独家专访了2011年诺贝尔经济学奖得主托马斯·萨金特教授…

大模型进阶：从语言到世界，克服幻觉挑战

2024年7月9日

在科技与创新的前沿领域，中国人工智能领域正迎来一次重要转型。据财联社报道，复旦大学教授、MOSS大模型项目负责人邱锡鹏阐述了人工…

联汇科技引领大模型革命：从自动驾驶到OmModel，重塑AI产业边界

2024年7月6日

**联汇科技在多模态大模型领域取得重大突破，引领人工智能新时代** 在人工智能领域掀起的新一轮技术浪潮中，联汇科技凭借其卓越的技…

“大模型竞赛白热化：为何飞书成独角兽共识？”

2024年6月25日

**飞书何以成为大模型创业公司的共同之选？** 随着科技的飞速发展，大模型领域成为当下最炙手可热的赛道。在过去的一年多时间里，该…

大模型+蒙特卡洛：创新算法让LLaMa-3 8B奥数能力逼近GPT-4

2024年6月18日

**创新算法助力大模型突破，LLaMa-3引领奥数能力跃升** 在最新科技热潮中，算法创新引领语言模型不断突破界限。近日，通过结…

文博会揭秘：大模型激发文化产业发展新活力

2024年5月27日

文博会观察：大模型为文化产业发展提供新机遇在刚刚结束的深圳文博会上，一大亮点是文化产业的数字化转型，其中，大模型技术成为推动这…

工信部发力：大模型引领AI赋能，开启制造业智能化新篇章

2024年5月12日

工业和信息化部新闻发言人、总工程师赵志国在今日的国新办新闻发布会上透露，为提升我国产业科技创新能力，工业和信息化部将积极推动人工…

大模型求职记：文理科生如何应对新兴职场挑战？

2024年4月25日

中新网上海4月24日电 (记者郑莹莹)随着科技的飞速发展，大模型这一新兴技术正逐渐成为职场新宠，引发各界对于人才需求和适应性的…

工信部发力：大模型引领AI重塑制造业，开启「人工智能+」新篇章

2024年4月14日

工业和信息化部新闻发言人、总工程师赵志国在今日的国新办新闻发布会上透露，为提升我国产业科技创新能力，下一步将重点推动以大模型为核…

沈向洋：通用大模型时代，人机关系面临新思考

2024年3月24日

随着人工智能技术的飞速发展，特别是大模型技术的突破，我们正步入一个全新的“通用大模型时代”。在这一背景下，人机关系正面临着前所未…

阶跃星辰发布万亿参数MoE语言大模型预览版

2024年3月23日

2024年全球开发者先锋大会在上海隆重开幕，通用大模型创业公司阶跃星辰在这一科技盛会上正式亮相。该公司由CEO姜大昕博士领导，推…

阿里大模型产品“通义听悟”重磅升级：超长视频问答新功能引领行业革

2024年3月19日

随着人工智能技术的不断发展，视频内容理解和交互的能力正在进入一个全新的阶段。阿里大模型产品“通义听悟”的最新升级，标志着这一领域…

《MIT研究揭示：大模型能力增速超越摩尔定律》

2024年3月19日

随着人工智能技术的飞速发展，大型语言模型（LLM）的能力提升速度令人瞩目。根据麻省理工学院（MIT）FutureTech的研究人…

AI大模型助力化学研究，上海AI实验室开源“浦科化学”

2024年3月9日

上海AI实验室开源科学大模型“浦科化学”，助力科学研究 1月26日，上海人工智能实验室（上海AI实验室）开源发布了首个科学大模型…

商汤发布“日日新”4.0：超越GPT 3.5，比肩GPT 4

2024年3月9日

商汤科技发布“日日新SenseNova 4.0”，大模型全面升级近日，商汤科技发布了其大模型体系“日日新SenseNova 4…

商汤大模型惊艳亮相，媲美GPT 4

2024年3月9日

商汤科技发布“日日新SenseNova 4.0”，大模型开启全新AI体验北京时间2023年3月8日，商汤科技发布“日日新Sen…

伯克利推出百万级上下文“大世界模型”

2024年3月9日

加州大学伯克利分校推出「大世界模型」支持百万 token 上下文，还能生成视频加州大学伯克利分校近日推出名为「大世界模型」（…

商汤大模型再升级，媲美GPT 4

2024年3月8日

商汤科技发布日日新SenseNova 4.0，大模型开启AI新体验北京时间2023年3月8日，商汤科技正式发布“日日新Sens…

商汤大模型升级！媲美GPT-4，跨模态交互更强

2024年3月8日

商汤科技发布“日日新SenseNova 4.0”大模型再进化北京时间2023年2月23日，商汤科技正式发布“日日新SenseN…

阿里大模型Qwen-VL升级，性能比肩GPT-4V

2024年3月8日

阿里云通义千问大模型升级，性能媲美GPT-4V 今日，阿里云宣布其多模态大模型通义千问（Qwen-VL）再次升级，推出Max版本…

商汤大模型4.0强势来袭，比肩GPT4

2024年3月8日

商汤科技发布“日日新SenseNova 4.0”，大模型开启AI新体验北京时间2023年3月8日，商汤科技发布“日日新Sens…

谷歌大模型负责人跳槽 TikTok

2024年3月8日

谷歌 VideoPoet 前负责人蒋路加盟 TikTok 大模型团队据雷峰网报道，原谷歌 VideoPoet 项目研究负责人蒋…

印度大模型独角兽 Krutrim 融资 5000万美元

2024年3月7日

印度大语言模型初创公司 Krutrim 融资 5000 万美元，估值 10 亿美元印度大语言模型初创公司 Krutrim 宣布…

Meta发布超越GPT-3.5的代码生成巨兽

2024年3月7日

Meta发布开源代码大模型Code Llama 70B，准确率超越GPT-3.5 科技巨头Meta日前宣布，其开源代码生成AI模…

万兴天幕大模型发布，赋能数字创意

2024年3月7日

万兴科技发布国内首个音视频多媒体大模型“天幕” 2023年3月8日，万兴科技在长沙发布了国内首个音视频多媒体大模型“天幕”，并宣…

智谱AI GLM-4开放API上线，赋能开发者

2024年3月7日

智谱AI GLM-4 模型开放 API 正式上线 2024 年 1 月 16 日，智谱 AI 正式推出了新一代基座大模型 GLM…

国产大模型再突破：讯飞星火开源-13B惊艳亮相

2024年3月7日

科大讯飞发布星火开源大模型 13B，国产软硬件环境深度优化今日下午，科大讯飞在讯飞星火认知大模型 V3.5 升级发布会上正式推…

端侧大模型加速！面壁MiniCPM比肩GPT-4

2024年3月7日

面壁智能发布端侧大模型 MiniCPM，性能比肩 GPT-4 2月1日，面壁智能正式发布了其端侧大模型面壁 MiniCPM。该模…

商汤大模型4.0问世，比肩GPT4

2024年3月6日

商汤科技发布“日日新SenseNova 4.0”大模型，全面升级AI体验北京时间2023年3月8日，商汤科技发布“日日新Sen…

Meta 推出超 1400 亿参数大模型，挑战GPT-4

2024年3月6日

Meta计划7月发布超大语言模型Llama 3，参数规模或达1400亿据科技媒体The Information援引知情人士报道…

大模型联合体诞生，北京科技巨头携手创新

2024年3月6日

北京大模型产业联合体成立，华为等 24 家单位联合发力 2 月 29 日，在中关村论坛系列活动【第二届北京人工智能产业创新发展大…

商汤大模型4.0惊艳亮相，比肩GPT 4

2024年3月6日

商汤科技日日新SenseNova 4.0发布，大模型引领AI新体验北京时间2023年3月8日，商汤科技隆重发布“日日新Sens…

商汤科技发布日日新SenseNova 4.0：大模型引领AI革新

2024年3月5日

商汤科技近日发布了全新的人工智能体验产品——日日新SenseNova 4.0，为用户带来了全新的AI体验。这款大模型系统在多个维…

商汤科技发布“日日新SenseNova 4.0”：全面升级大模型

2024年3月3日

商汤科技日前发布了全新的人工智能大模型“日日新SenseNova 4.0”，这一升级版的大模型带来了全新的AI体验。据悉，“日日…

商汤科技发布全新AI体验：日日新SenseNova 4.0大模型

2024年3月3日

商汤科技近日发布了全新的人工智能产品——日日新SenseNova 4.0，这款大模型为用户带来了全新的AI体验。作为商汤科技的最…

商汤科技发布全新AI体验：日日新SenseNova 4.0，大模

2024年3月3日

商汤科技日日新SenseNova 4.0发布，带来全新的AI体验。商汤科技近日发布了最新一代的人工智能模型“日日新SenseNo…

商汤科技发布日日新SenseNova 4.0，全面超越GPT 3

2024年3月2日

商汤科技日前发布了全新的AI体验产品——日日新SenseNova 4.0。这款产品是商汤科技在大模型领域的一次全面升级，带来了更…

商汤科技发布日日新SenseNova 4.0，引领AI新时代！

2024年3月2日

商汤科技日前发布了全新的AI体验产品——“日日新SenseNova 4.0”。这款产品通过多维度的全面升级，带来了更加强大的大模…

商汤科技发布日日新SenseNova 4.0：AI体验全面升级！

2024年3月1日

商汤科技日前发布了全新的人工智能产品——“日日新SenseNova 4.0”，这款产品在大模型带来全新AI体验方面实现了重大突破…

中国一汽阿里GPT-BI应用落地汽车行业

2024年2月28日

中国一汽联合阿里云通义千问,成功将大模型GPT-BI应用于汽车行业。这不仅是中国一汽的首个大模型落地案例,也是汽车行业的首个大模…

首批大模型标准符合性测试名单揭晓

2024年2月6日

我国首个官方“大模型标准符合性评测”结果近日公布，仅360、百度、腾讯、阿里四家企业的产品通过了测试。此次评测由工信部中国电子技…

DeepMind大模型破解60年数学难题，开创科学新纪元！

2024年1月31日

在最新的科技发展中，谷歌旗下的人工智能研究机构DeepMind取得了一项重大突破。据《量子位》报道，他们开发出一种名为FunSe…

百度侯震宇：大模型将重构云计算，AI原生云将成为新趋势

2024年1月31日

在近日举办的2023百度云智大会·智算大会上，百度集团副总裁侯震宇发表了重要演讲，指出大模型正在重构云计算，推动AI原生云的发展…

国内大模型逼近GPT-4！专家称差距正在缩小

2024年1月30日

在国内人工智能领域，大模型的研发一直是关注的焦点。近日，在2024环球时报年会-议题四“创新、科技与人文：中国式现代化的未来图景…

智谱AI新一代基座大模型GLM-4即将发布

2024年1月27日

**智谱AI宣布将于1月16日发布「新一代基座大模型」GLM-4** 北京时间2024年1月11日，智谱AI在GLM大模型官方公…

元象开源大模型，长文本时代来临

2024年1月27日

2023年3月8日，元象XVERSE宣布开源全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K。该模型支…

智谱AI发布第四代基座大模型GLM-4

2024年1月27日

**智谱AI发布全自研第四代基座大模型GLM-4，并发布类似于GPTs的个性化定制智能体GLMs** 2023年2月22日，智谱…

王小川：大模型创业核心，技术产品匹配

2024年1月14日

在极客公园创新大会2024上，百川智能创始人王小川分享了他对大模型的新思考。他认为，大模型的演进方向应该是将“学”和“思”结合起…

大模型规模商业化即将到来

2024年1月8日

在最近举行的2023T-EDGE全球创新大会上，著名新闻人物、智源研究院学术顾问委员会主任、美国国家工程院外籍院士张宏江预测，未…

2024年大模型基础设施新趋势

2024年1月7日

随着2023年大量大模型的涌现，训练和推理解决方案的不断完善，人们对2024年大模型基础设施领域的新趋势产生了浓厚兴趣。在此背景…

大模型引领未来搜索技术变革

2024年1月7日

近日，夸克技术负责人蒋冠军在接受《科创板日报》记者采访时表示，随着大模型技术的不断发展，未来搜索引擎或将被取代。蒋冠军对国内大模…

王小川谈大模型演进：学与思的结合

2024年1月7日

在近日举行的极客公园创新大会上，百川智能创始人王小川分享了关于大模型的新思考。他指出，当前大模型的发展趋势是“学”，但缺乏“思”…

周鸿祎预测2024年大模型发展趋势

2024年1月6日

在1月5日的“2023年风马牛年终秀”上，我国知名互联网企业360集团创始人周鸿祎分享了关于2024年大模型发展趋势的十大预测。…

大模型聊天机器人推断个人隐私信息

2024年1月3日

新闻标题：大模型聊天机器人推断个人隐私信息关键词：大模型，聊天机器人，个人隐私据一项研究，大模型聊天机器人可以从匿名文本中“…

大模型初创公司GigaML获360万美元种子轮融资

2024年1月3日

GigaML 是一家帮助企业确保大语言模型本地部署的公司，已获得 360 万美元的种子资金。本轮融资由 Nexus Ventur…

WindowsAIStudio助开发人员构建大模型

2024年1月3日

微软于近期推出了 Windows AI Studio，这是一个全新的大模型开发中心，旨在帮助开发人员更轻松地访问和配置大模型。该…

字节大模型产品首出海，AI助手ChitChop在海外上线

2024年1月2日

近日，字节在海外推出了一款名为“ChitChop”的大模型产品，这是字节首在海外推出的基于大模型的产品。ChitChop由开发运…

北京发布人工智能行业大模型创新应用白皮书

2024年1月2日

北京市科学技术委员会、中关村科技园区管理委员会在AICC 2023人工智能计算大会上发布了《北京市人工智能行业大模型创新应用白皮…

首个异构先驱版大模型Aquila2-70B-Expr开源，英伟达

2024年1月2日

智源研究院正式开源了700亿参数的大模型Aquila2-70B-Expr，这是首个基于英伟达混合资源（A100集群+A800集群…

全球首个金融风控大模型国际标准出炉，腾讯牵头制定

2024年1月2日

11月30日，全球首个金融风控大模型国际标准在深圳召开启动会，该标准由腾讯主导发起，旨在为金融机构风控建模环节中应用AI大模型技…

为您推荐

Day.ai：HubSpot CPO再战AI CRM，红杉押注！

2025年4月12日

D1技术突破：全球数据一致性复制成真

2025年4月12日

US Tariff Stick How Much Pain for European and American Automakers?

2025年4月12日

R2数据目录：Iceberg表零出口费

2025年4月12日