9月21日,在2024云栖大会上,阿里巴巴达摩院计算技术实验室宣布了一项重要成果:提出了一种基于结构保持网络的AI视觉算法,该算法能够将高动态范围(HDR)场景图像自动转换为低动态范围(LDR)图像,并保持其纹理细节。与业界相比,该算法在常规显示设备上的图像质量提升了7%。

HDR与LDR图像的挑战

HDR图像同时包含强光源照射下的极亮区域和阴影、逆光下的极暗区域,容易出现明亮区域过曝、或者黑暗区域纯黑的情况。因此,HDR图像需要经过宽动态技术处理才能适配常规显示设备。传统的宽动态技术由于缺乏自适应的局部与全局处理方法,会损失大量信息,生成结果局部粗糙或者全局锐化。因此,业界也在探索基于AI的宽动态技术,但最大的挑战在于缺乏成对匹配的HDR-LDR数据,难以构建完备训练数据。

阿里巴巴达摩院的创新技术

为解决这一难题,阿里巴巴达摩院团队创新性地提出了利用双流控制扩散网络保持图像在前向传播过程中的结构细节和色调风格的方法,实现了零样本学习。具体而言,该方法采用平均值减除和对比度归一化(MSCN)技术,提取出HDR和LDR图像的共享结构特征作为“桥梁”,引导扩散模型学习到HDR图像结构并维持LDR图像的色调风格,最终生成纹理细节丰富且色彩均衡的LDR图像。

实验结果与应用前景

基于标准的HDRPS色调映射数据集,该模型的NIQE和TMQI指标相比业界提升7.11%和0.61%。此外,达摩院团队还将该模型迁移到红外图像恢复领域,在公开的VIS-NIR数据集上取得了超过业界10%的效果。相关学术论文《Zero-Shot Structure-Preserving Diffusion Model for High Dynamic Range Tone Mapping》被国际计算机视觉与模式识别会议(CVPR)收录为今年亮点(Highlight)。

阿里巴巴达摩院计算技术实验室表示,该技术不仅可帮助ISP芯片实现更智能的光线适应性和动态范围调整,还有望与其他多种扩散模型结合,发展AIGC技术的新可能。面向图计算、自动驾驶、多模态AI、具身智能等新型计算需求,该团队将持续探索软硬件全栈创新,助力芯片产业和数字经济发展。

结语

此次阿里巴巴达摩院提出的结构保持的AI视觉算法,不仅在图像质量上取得了显著提升,还为其他领域的应用提供了新的可能。未来,随着技术的不断进步,该算法有望在更多场景中发挥重要作用,推动数字技术的发展和应用。


>>> Read more <<<

Views: 0

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注