Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 人工智能领域再添新星!近日,360 AI 研究院与中山大学联合宣布开源其共同研发的高效多模态生成模型 Qihoo-T2X。该模型基于代理标记化扩散 Transformer (PT-DiT) 架构,在文本到图像 (T2I)、文本到视频 (T2V) 和文本到多视图 (T2MV) 生成等多个任务中展现出卓越的性能,为创意设计、视频制作、教育培训等领域带来了全新的可能性。

Qihoo-T2X 的核心优势在于其高效性。传统的扩散 Transformer 在处理全局自注意力计算时,计算复杂度高且存在冗余。而 PT-DiT 架构巧妙地引入了稀疏代理标记注意力机制,通过在每个时空窗口内计算平均标记作为代理标记,并对这些代理标记进行自注意力计算,从而大幅降低了计算量。同时,交叉注意力机制确保了全局语义信息能够有效地传播到所有潜在标记中,保证了生成内容的质量。

此外,为了增强局部细节建模能力,Qihoo-T2X 还采用了窗口注意力与移位窗口注意力机制,有效避免了因窗口划分导致的“网格效应”,进一步提升了生成图像和视频的质量。

技术亮点:

  • 代理标记化注意力 (Proxy Token Attention): 大幅降低计算复杂度,提高生成效率。
  • 窗口注意力与移位窗口注意力 (Window Attention & Shifted Window Attention): 增强局部细节建模能力,提升生成质量。
  • 多任务适应性 (Multi-Task Adaptability): 无需对模型结构进行重大调整,即可适应图像生成、视频生成和多视图生成等多种任务。

应用场景:

Qihoo-T2X 的开源,预示着其将在多个领域得到广泛应用:

  • 创意设计与艺术创作: 快速生成高质量艺术图像,加速设计流程,为艺术家提供灵感。
  • 视频内容生成: 生成连贯的动画视频,适用于广告、宣传和动画制作,降低视频创作成本和时间。
  • 教育与培训: 生成教学用图像和视频,帮助学生理解复杂概念,支持虚拟实验室和动态教学资源。
  • 娱乐与游戏开发: 生成虚拟场景、角色和动态内容,用于游戏开发、虚拟现实 (VR) 和增强现实 (AR) 应用,提升沉浸感。
  • 广告与营销: 快速生成个性化广告图像和视频,提高营销效果,满足品牌视觉内容需求。

开源信息:

Qihoo-T2X 的开源项目地址如下:

360 AI 研究院与中山大学的此次合作,不仅为 AI 社区贡献了一款强大的多模态生成模型,也为相关领域的研究人员和开发者提供了宝贵的资源和借鉴。随着 Qihoo-T2X 的不断发展和完善,我们有理由相信,它将在推动人工智能技术进步和赋能各行各业方面发挥更大的作用。

结语:

Qihoo-T2X 的开源,标志着中国在多模态生成模型领域取得了重要突破。其高效的架构和广泛的应用场景,有望加速 AI 技术在创意、教育、娱乐等领域的落地,为社会带来更多创新和价值。我们期待 Qihoo-T2X 在未来能够持续发展,为构建更加智能、便捷的世界贡献力量。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注