新闻报道新闻报道

字节跳动发布豆包视觉理解模型:一元处理近300张高清图,AI普惠再加速

北京 -2024年12月20日 – 在12月18日举行的火山引擎Force大会上,字节跳动正式发布了其最新的豆包视觉理解模型,该模型以惊人的性价比和强大的性能,再次引发了业界对人工智能普惠化的关注。这款模型不仅在数学、物理、图表、代码等领域的推理能力上进行了显著提升,更以一元人民币处理近300张高清图片的超低价格,将行业平均成本降低了85%,为视觉AI应用的大规模普及奠定了坚实基础。

视觉理解:大模型能力拓展的关键

正如研究显示,人类接受的信息超过80%来自视觉。视觉理解能力的提升,无疑将极大地拓展大模型的能力边界,并降低人们与大模型交互的门槛,从而解锁更丰富的应用场景。火山引擎总裁谭待在发布会上表示,豆包视觉理解模型不仅能够精准识别视觉内容,还具备出色的理解和推理能力,可以根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型还拥有细腻的视觉描述和创作能力,这使得其在图像生成、内容理解等领域具备广阔的应用前景。

此前,豆包视觉理解模型已经接入豆包App和PC端产品,这标志着字节跳动在多模态人工智能领域的布局正在加速落地。豆包战略研究负责人周昊强调,豆包一直致力于让用户的输入更加快捷方便,因此非常注重多模态的输入和打磨,包括语音、视觉等能力。这些模型都已通过火山引擎开放给企业客户,旨在赋能各行各业的智能化转型。

豆包3D生成模型:虚拟与现实的深度融合

除了视觉理解模型,本次大会还首次亮相了豆包3D生成模型。该模型采用3D-DiT等先进算法技术,能够生成高质量的3D模型。更值得关注的是,该模型与火山引擎和英伟达合作的数字孪生平台veOmniverse结合使用,可以高效完成智能训练、数据合成和数字资产制作,从而构建出一套支持AIGC创作的物理世界仿真模拟器。

字节跳动在现场展示了通过veOmniverse编辑器和文生3D技术快速搭建工厂车间场景的Demo。用户只需输入文本,即可实时生成3D场景和模型,这不仅满足了仿真训练的多样化需求,也为虚拟现实、游戏开发等领域带来了全新的可能性。字节方面表示,通过豆包3D模型与veOmniverse的结合方案,团队可以高效完成智能训练、数据合成和数字资产制作,加速虚拟与现实的深度融合。

豆包大模型全面升级:对标GPT-4o,价格仅为1/8

在本次大会上,豆包大模型的多款产品也迎来了重要更新。其中,豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8。谭待介绍,在专业知识领域,豆包pro相比五月版本提升了54%,这一效果略微领先于GPT-4o;在综合任务处理能力上提升32%,和GPT-4o持平;指令遵循提升9%、推理能力提升13%,在数学方面提升43%。这些数据表明,豆包pro在多个关键指标上已经达到了国际领先水平,并且在部分复杂任务中表现更佳。

此外,豆包音乐模型也从原来生成60秒的简单结构,升级到生成3分钟的完整作品。新的模型能够合理运用旋律、节奏、和声等信息,使全曲保持连贯性。如果对生成的歌词不满意,还能开启局部修改模式,这为音乐创作提供了极大的便利。文生图模型也升级到了2.1版本,其核心功能可以概括为“一键P图,一键海报”,实现精准生成汉字和一句话P图的产品化能力。该模型已接入即梦AI和豆包App,为用户提供了更加便捷的图像处理和创作工具。

据介绍,豆包文生图2.1模型打通了LLM和DIT架构,构建了高质量文字渲染能力,可以让文字与整体画面的融合更为自然和实用。大会还宣告,2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。这些升级和新功能的推出,无疑将进一步提升豆包大模型的竞争力,并为用户带来更加丰富的应用体验。

谭待表示,豆包大模型虽然发布较晚,但一直在快速迭代进化,目前已成为国内最全面、技术最领先的大模型之一。即梦Dreamina张楠认为,生成式AI技术可以把每个人脑子里的奇思妙想快速视觉化,“像做梦一样”。即梦希望成为“想象力世界”的相机,记录每个人的奇思妙想,帮助每个有想法的人轻松表达、自由创作。

豆包日均tokens使用量7个月增长33倍:市场应用加速渗透

数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。这一惊人的增长速度,充分反映了市场对豆包大模型的认可和需求。大模型应用正在向各行各业加速渗透。

据悉,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。与企业生产力相关的场景,豆包大模型也获得了众多企业客户青睐:最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有大幅增长。这些数据表明,豆包大模型正在各个领域发挥着越来越重要的作用,并为企业数字化转型提供了强有力的支持。

谭待认为,豆包大模型市场份额的爆发,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,让AI成为每一家企业都能用得起、用得好的普惠科技。在公布豆包视觉理解模型超低定价的同时,火山引擎还升级了火山方舟、扣子和HiAgent三款平台产品,帮助企业构建好自身的AI能力中心,高效开发AI应用。其中,火山方舟发布了大模型记忆方案,并推出prefix cache和session cache API,降低延迟和成本。火山方舟还带来全域AI搜索,具备场景化搜索推荐一体化、企业私域信息整合等服务。

AI云原生:云计算的下一个十年

云原生是过去十年最重要的计算范式,而大模型时代则推动着云计算的变革。火山引擎认为,下一个十年,计算范式应该从云原生进入到AI云原生的新时代。基于AI云原生的理念,火山引擎推出了新一代计算、网络、存储和安全产品。

在计算层面,火山引擎GPU实例,通过vRDMA网络,支持大规模并行计算和P/D分离推理架构,显著提升训练和推理效率,降低成本;存储上,新推出的EIC弹性极速缓存,能够实现GPU直连,使大模型推理时延降低至1/50、成本降低20%;在安全层面,火山将推出PCC私密云服务,构建大模型的可信应用体系。基于PCC,企业能够实现用户数据在云上推理的端到端加密,而且性能很好,推理时延比明文模式的差异在5%以内。

谭待说:“今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族,火山引擎希望帮助企业做好AI创新,驶向更美好的未来。”

结语

字节跳动此次发布的豆包视觉理解模型,以其超低的定价和强大的性能,再次证明了人工智能普惠化的可能性。同时,豆包大模型在各个领域的全面升级,以及AI云原生理念的提出,都预示着人工智能技术将会在未来十年内迎来更加快速的发展。随着大模型技术的不断成熟和应用场景的不断拓展,我们有理由相信,人工智能将会为人类社会带来更加深刻的变革。字节跳动在这一波浪潮中,正扮演着越来越重要的角色,其未来的发展值得我们持续关注。

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注