北京 – 人工智能领域再添新星!近日,360 AI 研究院与中山大学联合宣布开源其共同研发的高效多模态生成模型 Qihoo-T2X。该模型基于代理标记化扩散 Transformer (PT-DiT) 架构,在文本到图像 (T2I)、文本到视频 (T2V) 和文本到多视图 (T2MV) 生成等多个任务中展现出卓越的性能,为创意设计、视频制作、教育培训等领域带来了全新的可能性。
Qihoo-T2X 的核心优势在于其高效性。传统的扩散 Transformer 在处理全局自注意力计算时,计算复杂度高且存在冗余。而 PT-DiT 架构巧妙地引入了稀疏代理标记注意力机制,通过在每个时空窗口内计算平均标记作为代理标记,并对这些代理标记进行自注意力计算,从而大幅降低了计算量。同时,交叉注意力机制确保了全局语义信息能够有效地传播到所有潜在标记中,保证了生成内容的质量。
此外,为了增强局部细节建模能力,Qihoo-T2X 还采用了窗口注意力与移位窗口注意力机制,有效避免了因窗口划分导致的“网格效应”,进一步提升了生成图像和视频的质量。
技术亮点:
- 代理标记化注意力 (Proxy Token Attention): 大幅降低计算复杂度,提高生成效率。
- 窗口注意力与移位窗口注意力 (Window Attention & Shifted Window Attention): 增强局部细节建模能力,提升生成质量。
- 多任务适应性 (Multi-Task Adaptability): 无需对模型结构进行重大调整,即可适应图像生成、视频生成和多视图生成等多种任务。
应用场景:
Qihoo-T2X 的开源,预示着其将在多个领域得到广泛应用:
- 创意设计与艺术创作: 快速生成高质量艺术图像,加速设计流程,为艺术家提供灵感。
- 视频内容生成: 生成连贯的动画视频,适用于广告、宣传和动画制作,降低视频创作成本和时间。
- 教育与培训: 生成教学用图像和视频,帮助学生理解复杂概念,支持虚拟实验室和动态教学资源。
- 娱乐与游戏开发: 生成虚拟场景、角色和动态内容,用于游戏开发、虚拟现实 (VR) 和增强现实 (AR) 应用,提升沉浸感。
- 广告与营销: 快速生成个性化广告图像和视频,提高营销效果,满足品牌视觉内容需求。
开源信息:
Qihoo-T2X 的开源项目地址如下:
- 项目官网: https://360cvgroup.github.io/Qihoo-T2X/
- GitHub 仓库: https://github.com/360CVGroup/Qihoo-T2X
- arXiv 技术论文: https://arxiv.org/pdf/2409.04005
360 AI 研究院与中山大学的此次合作,不仅为 AI 社区贡献了一款强大的多模态生成模型,也为相关领域的研究人员和开发者提供了宝贵的资源和借鉴。随着 Qihoo-T2X 的不断发展和完善,我们有理由相信,它将在推动人工智能技术进步和赋能各行各业方面发挥更大的作用。
结语:
Qihoo-T2X 的开源,标志着中国在多模态生成模型领域取得了重要突破。其高效的架构和广泛的应用场景,有望加速 AI 技术在创意、教育、娱乐等领域的落地,为社会带来更多创新和价值。我们期待 Qihoo-T2X 在未来能够持续发展,为构建更加智能、便捷的世界贡献力量。
参考文献:
- 360 AI 研究院. (2024). Qihoo-T2X: An Efficient Multi-Modal Generation Model. Retrieved from https://360cvgroup.github.io/Qihoo-T2X/
- 360CVGroup. (2024). Qihoo-T2X GitHub Repository. Retrieved from https://github.com/360CVGroup/Qihoo-T2X
- (Authors). (2024). Qihoo-T2X: An Efficient Multi-Modal Generation Model. arXiv preprint arXiv:2409.04005. Retrieved from https://arxiv.org/pdf/2409.04005
Views: 0