字节跳动发布豆包视觉理解模型：一元处理近300张高清图，AI普惠再加速

北京 -2024年12月20日 – 在12月18日举行的火山引擎Force大会上，字节跳动正式发布了其最新的豆包视觉理解模型，该模型以惊人的性价比和强大的性能，再次引发了业界对人工智能普惠化的关注。这款模型不仅在数学、物理、图表、代码等领域的推理能力上进行了显著提升，更以一元人民币处理近300张高清图片的超低价格，将行业平均成本降低了85%，为视觉AI应用的大规模普及奠定了坚实基础。

视觉理解：大模型能力拓展的关键

正如研究显示，人类接受的信息超过80%来自视觉。视觉理解能力的提升，无疑将极大地拓展大模型的能力边界，并降低人们与大模型交互的门槛，从而解锁更丰富的应用场景。火山引擎总裁谭待在发布会上表示，豆包视觉理解模型不仅能够精准识别视觉内容，还具备出色的理解和推理能力，可以根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型还拥有细腻的视觉描述和创作能力，这使得其在图像生成、内容理解等领域具备广阔的应用前景。

此前，豆包视觉理解模型已经接入豆包App和PC端产品，这标志着字节跳动在多模态人工智能领域的布局正在加速落地。豆包战略研究负责人周昊强调，豆包一直致力于让用户的输入更加快捷方便，因此非常注重多模态的输入和打磨，包括语音、视觉等能力。这些模型都已通过火山引擎开放给企业客户，旨在赋能各行各业的智能化转型。

豆包3D生成模型：虚拟与现实的深度融合

除了视觉理解模型，本次大会还首次亮相了豆包3D生成模型。该模型采用3D-DiT等先进算法技术，能够生成高质量的3D模型。更值得关注的是，该模型与火山引擎和英伟达合作的数字孪生平台veOmniverse结合使用，可以高效完成智能训练、数据合成和数字资产制作，从而构建出一套支持AIGC创作的物理世界仿真模拟器。

字节跳动在现场展示了通过veOmniverse编辑器和文生3D技术快速搭建工厂车间场景的Demo。用户只需输入文本，即可实时生成3D场景和模型，这不仅满足了仿真训练的多样化需求，也为虚拟现实、游戏开发等领域带来了全新的可能性。字节方面表示，通过豆包3D模型与veOmniverse的结合方案，团队可以高效完成智能训练、数据合成和数字资产制作，加速虚拟与现实的深度融合。

豆包大模型全面升级：对标GPT-4o，价格仅为1/8

在本次大会上，豆包大模型的多款产品也迎来了重要更新。其中，豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8。谭待介绍，在专业知识领域，豆包pro相比五月版本提升了54%，这一效果略微领先于GPT-4o；在综合任务处理能力上提升32%，和GPT-4o持平；指令遵循提升9%、推理能力提升13%，在数学方面提升43%。这些数据表明，豆包pro在多个关键指标上已经达到了国际领先水平，并且在部分复杂任务中表现更佳。

此外，豆包音乐模型也从原来生成60秒的简单结构，升级到生成3分钟的完整作品。新的模型能够合理运用旋律、节奏、和声等信息，使全曲保持连贯性。如果对生成的歌词不满意，还能开启局部修改模式，这为音乐创作提供了极大的便利。文生图模型也升级到了2.1版本，其核心功能可以概括为“一键P图，一键海报”，实现精准生成汉字和一句话P图的产品化能力。该模型已接入即梦AI和豆包App，为用户提供了更加便捷的图像处理和创作工具。

据介绍，豆包文生图2.1模型打通了LLM和DIT架构，构建了高质量文字渲染能力，可以让文字与整体画面的融合更为自然和实用。大会还宣告，2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版，豆包端到端实时语音模型也将很快上线，从而解锁多角色演绎、方言转换等新能力。这些升级和新功能的推出，无疑将进一步提升豆包大模型的竞争力，并为用户带来更加丰富的应用体验。

谭待表示，豆包大模型虽然发布较晚，但一直在快速迭代进化，目前已成为国内最全面、技术最领先的大模型之一。即梦Dreamina张楠认为，生成式AI技术可以把每个人脑子里的奇思妙想快速视觉化，“像做梦一样”。即梦希望成为“想象力世界”的相机，记录每个人的奇思妙想，帮助每个有想法的人轻松表达、自由创作。

豆包日均tokens使用量7个月增长33倍：市场应用加速渗透

数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。这一惊人的增长速度，充分反映了市场对豆包大模型的认可和需求。大模型应用正在向各行各业加速渗透。

据悉，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。与企业生产力相关的场景，豆包大模型也获得了众多企业客户青睐：最近3个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有大幅增长。这些数据表明，豆包大模型正在各个领域发挥着越来越重要的作用，并为企业数字化转型提供了强有力的支持。

谭待认为，豆包大模型市场份额的爆发，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念，让AI成为每一家企业都能用得起、用得好的普惠科技。在公布豆包视觉理解模型超低定价的同时，火山引擎还升级了火山方舟、扣子和HiAgent三款平台产品，帮助企业构建好自身的AI能力中心，高效开发AI应用。其中，火山方舟发布了大模型记忆方案，并推出prefix cache和session cache API，降低延迟和成本。火山方舟还带来全域AI搜索，具备场景化搜索推荐一体化、企业私域信息整合等服务。

AI云原生：云计算的下一个十年

云原生是过去十年最重要的计算范式，而大模型时代则推动着云计算的变革。火山引擎认为，下一个十年，计算范式应该从云原生进入到AI云原生的新时代。基于AI云原生的理念，火山引擎推出了新一代计算、网络、存储和安全产品。

在计算层面，火山引擎GPU实例，通过vRDMA网络，支持大规模并行计算和P/D分离推理架构，显著提升训练和推理效率，降低成本；存储上，新推出的EIC弹性极速缓存，能够实现GPU直连，使大模型推理时延降低至1/50、成本降低20%；在安全层面，火山将推出PCC私密云服务，构建大模型的可信应用体系。基于PCC，企业能够实现用户数据在云上推理的端到端加密，而且性能很好，推理时延比明文模式的差异在5%以内。

谭待说：“今年是大模型高速发展的一年。当你看到一列高速行驶的列车，最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族，火山引擎希望帮助企业做好AI创新，驶向更美好的未来。”

结语

字节跳动此次发布的豆包视觉理解模型，以其超低的定价和强大的性能，再次证明了人工智能普惠化的可能性。同时，豆包大模型在各个领域的全面升级，以及AI云原生理念的提出，都预示着人工智能技术将会在未来十年内迎来更加快速的发展。随着大模型技术的不断成熟和应用场景的不断拓展，我们有理由相信，人工智能将会为人类社会带来更加深刻的变革。字节跳动在这一波浪潮中，正扮演着越来越重要的角色，其未来的发展值得我们持续关注。

参考文献：

InfoQ: 豆包视觉理解模型正式发布：一元处理近 300 张高清图片，低于行业价格 85%
https://www.infoq.cn/article/8n26q3z77f8w9j90l8v5

>>> Read more <<<

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

豆包视觉模型震撼发布：一元处理300图，价格冰点！

作者智能小编

字节跳动发布豆包视觉理解模型：一元处理近300张高清图，AI普惠再加速

视觉理解：大模型能力拓展的关键

豆包3D生成模型：虚拟与现实的深度融合

豆包大模型全面升级：对标GPT-4o，价格仅为1/8

豆包日均tokens使用量7个月增长33倍：市场应用加速渗透

AI云原生：云计算的下一个十年

结语

相关文章

PCDIY Market Rebounds in 2024 Tech Giants Bet Big onAI

AI表情包大捷：终于赢了？

五年内自动驾驶：世界模型成唯一破局之道

发表回复取消回复

为您推荐

PCDIY Market Rebounds in 2024 Tech Giants Bet Big onAI

AI表情包大捷：终于赢了？

五年内自动驾驶：世界模型成唯一破局之道

China’s 90s Generation Grapples with Parents’ Depression SeeksPsychiatric Help

作者智能小编

字节跳动发布豆包视觉理解模型：一元处理近300张高清图，AI普惠再加速

视觉理解：大模型能力拓展的关键

豆包3D生成模型：虚拟与现实的深度融合

豆包大模型全面升级：对标GPT-4o，价格仅为1/8

豆包日均tokens使用量7个月增长33倍：市场应用加速渗透

AI云原生：云计算的下一个十年

结语

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复