火山引擎发布大模型训练视频预处理方案,助力豆包视频生成模型突破技术瓶颈
北京,2024年10月15日 – 火山引擎在今日举办的视频云技术大会上发布了大模型训练视频预处理方案,旨在解决视频大模型训练中面临的成本、质量和性能等技术挑战。该方案已成功应用于抖音集团自研的视频生成模型“豆包”,为其提供了强大的技术支撑。
预处理方案:解决视频大模型训练的“拦路虎”
对训练视频进行预处理是保障大模型训练效果的关键步骤。通过预处理,可以统一视频数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能够更高效地学习视频中的特征和知识,提升训练效果和效率。
然而,对于大模型厂商而言,视频预处理过程面临着诸多挑战:
- 超大规模视频训练数据集导致计算和处理成本激增。
- 视频样本数据参差不齐,需要进行质量控制和标准化处理。
- 处理链路环节多、工程复杂,需要高效的协同和管理。
- 需要对GPU、CPU、ARM等多种异构算力资源进行调度部署。
火山引擎自研多媒体处理框架BMF:突破技术难题
为了应对上述挑战,火山引擎此次发布的大模型训练视频预处理方案依托于自研的多媒体处理框架BMF。BMF 充分利用 Intel 的 CPU 等资源,有效地降低了模型训练的算力成本。此外,该方案还在算法和工程方面进行了优化,可以对海量视频数据进行高质量预处理,短时间内实现处理链路的快速协同,显著提升模型训练效率。
BMF lite:赋能移动端大模型应用
值得一提的是,火山引擎本次还发布并开源了移动端后处理解决方案BMF lite 版本。BMF lite 支持端侧大模型接入和算子加速,更加轻量、通用,为移动端大模型应用提供了强有力的支持。
豆包视频生成模型:受益于火山引擎预处理方案
抖音集团自研的视频生成模型“豆包” (PixelDance) 在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为“豆包”生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,保障了模型的商业化应用。
“豆包” 视频生成模型采用 DiT 架构,通过高效的 DiT 融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题,在业界引起了广泛关注。目前,“豆包” 视频生成模型已通过火山引擎面向企业开启邀测。
火山引擎视频云:全链路赋能AIGC时代
除了大模型训练视频预处理方案,火山引擎此次还发布了多项“音视频+AI”技术方案,从视频的生产端、交互端到消费端,全链路融入了 AI 的能力,助力企业全链路适配AIGC 时代。
- 跨语言同声复刻直播方案:实现实时语音翻译和视频同步,打破语言障碍,拓展直播场景。
- 多模态视频理解与生成方案:利用 AI 技术对视频内容进行理解和分析,并生成新的视频内容,提升视频内容创作效率。
- 对话式AI实时交互方案:基于豆包大模型和火山引擎视频云自研的多项算法,实现毫秒级人声检测和打断响应,提供丝滑稳定的端到端响应体验。
- AIG3D&大场景重建方案:利用 AI 技术生成 3D 内容和大场景重建,为用户提供沉浸式消费体验。
字节跳动自研视频编解码芯片:成本节省95%以上
大会上,王悦还透露了字节跳动自研视频编解码芯片的最新进展。经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了 95% 以上,并在 2024 MSU 世界编码器大赛中一举夺得最佳 ASIC 编码器。该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。
结语
火山引擎视频云团队为字节跳动提供音视频技术,并通过火山引擎服务外部客户。此次发布的大模型训练视频预处理方案以及其他“音视频+AI”技术方案,将进一步推动 AI 技术在视频领域的应用,助力企业在 AIGC时代取得更大的成功。
Views: 0