科大讯飞:大模型竞速中的“选择性答题”

引言

在人工智能领域,大模型的竞速已经成为全球科技巨头的角逐场。作为国内领先的语音识别和人工智能企业,科大讯飞在过去两年多时间里,以“1+N”大模型技术攻关为核心,积极探索大模型在自身业务中的应用。然而,科大讯飞并没有追求全领域第一,而是选择性地聚焦于自身业务需求,并取得了显著成果。本文将深入探讨科大讯飞在大模型竞速中的“选择性答题”策略,以及其在推理、数字人、AI for Science等领域的探索与思考。

必答题:大模型推理

OpenAI 在今年推出了 Sora、GPT-4o 和 o1 三个重磅模型,分别代表了视频生成、语音交互和推理领域的顶尖技术。科大讯飞选择将重点放在 GPT-4o 和 o1 的技术路线,并将其融入自身业务。

GPT-4o 代表的多模交互能力一直是科大讯飞的核心技术之一,而 o1 则在更复杂问题的解决上展现出巨大潜力。刘聪院长表示,o1 有可能改善推理过程,使其不再过度依赖大量数据和精细设定的推理路径,这将对解决复杂问题起到重要作用。

科大讯飞在推理方面主要关注两类问题:以数学为代表的学科类问题和学科类中具有一定严格逻辑的大概率事件,如医疗领域。据悉,讯飞今年年底将实现类 o1 的高难度数学能力显著提升。

算力:基础设施的保障

科大讯飞认识到算力对于大模型发展的重要性。去年,讯飞与华为合作建立了首个全国产万卡算力平台飞星一号,并克服了万卡集群维护等技术难题。今年,三方联合打造的国产超大规模智算平台“飞星二号”正式启动,向更大规模算力集群跃迁。

然而,算力市场正在面临供需变化。随着国产化算力建设的推进,算力供应逐渐增多,价格也受到影响。同时,需求市场有所放缓,一些企业放弃了预训练模型开发,导致之前投入的重复和浪费。刘聪院长强调,技术进步最终要回归到行业场景落地和商业闭环价值,才能实现正循环。

业务题:数字人

数字人赛道是科大讯飞的另一个重要选择。从 2018 年开始,科大讯飞就将数字人融入自身业务,并于今年 10 月 24 日发布了首个超拟人数字人。

科大讯飞的数字人基于自身业务需求,更加关注数字人的实时可交互性。刘聪院长认为,数字人必须具备实时交互能力,尤其在复杂和高精度的情境下尤为关键。

科大讯飞通过结合扩散技术和其他方法,实现了表情更加丰富多样、语义贯穿的“口唇 – 表情 – 动作”的超拟人数字人生成。同时,动作驱动技术的应用也使得交互体验更加真实和生动。

“使命”题:AI for Science

今年的诺贝尔奖颁发给了 AI 领域的科学家,进一步推动了业内对 AI for Science 的关注。科大讯飞已在“大模型 + 科研”领域做了许多探索,如联合中科大等高校和科研机构,在蛋白质设计、单细胞基因表达、等离子体控制等领域取得了突破。

刘庆峰董事长表示,AI for Science 决定了中国科技发展的速度,赋能科研是讯飞星火的重要使命。

科大讯飞将 AI for Science 赋能科研分为三个阶段:基础科研和基础工作的提效、科学任务建模和科研方案的辅助设计。目前,科大讯飞已进入第二阶段,并正在向第三阶段迈进。

结论

科大讯飞在大模型竞速中,选择了“选择性答题”的策略,聚焦于自身业务需求,并取得了显著成果。其在推理、数字人、AI for Science 等领域的探索,体现了其对大模型技术发展方向的深刻理解和对未来科技的远见。相信科大讯飞将继续在人工智能领域不断突破,为科技进步和社会发展贡献力量。

参考文献

  • 科大讯飞大模型竞速2年多,答卷不只是语音 – InfoQ
  • 科大讯飞发布超拟人数字人,实时交互成关键 – 搜狐科技
  • 科大讯飞:AI for Science 赋能科研,助力科技发展 – 新华网


>>> Read more <<<

Views: 0

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注