AI 驱动的可观测性革新:携程如何应对海量数据挑战

引言: 随着软件架构向微服务和云原生演进,企业对可观测性的需求日益增长。作为全球领先的在线旅游服务平台,携程面临着海量监控数据和日志处理的挑战,这对于平台的高效治理和持续稳定提出了更高的要求。本文将深入探讨携程在应对这些挑战时所采用的创新解决方案,尤其是AI 驱动的可观测平台架构升级实践,以及如何实现高效数据治理与性能平衡。

携程可观测平台现状与挑战:

携程的软件系统和应用复杂度持续增加,导致可观测平台的数据量急剧增长。目前,携程拥有超过 1 万个应用,实例数量超过 100 万个,每分钟产生的指标数据超过 10 亿,日增日志量超过1PB。

主要挑战:

  • 信息过载: 海量数据导致信息过载,运维人员难以提取有价值的信息,甚至会掩盖关键问题,延长故障排除时间。
  • 性能瓶颈: 处理和存储海量数据需要高性能基础设施,增加机器成本和运维复杂性,可能导致数据延迟或丢失,影响监控数据的时效性。
  • 成本增加: 日增 1PB 的日志存储量带来巨大的存储成本压力。

携程的创新解决方案:

1. 数据采样和聚合:

  • 针对监控指标,携程采用不同的采样策略,例如聚合时间段内的平均值、最大值、最小值,显著减少数据量。
  • 对于日志数据,携程建立冷热数据分层存储机制,将频繁访问的数据存储在快速存储介质上,不常访问的数据存储在较慢但更便宜的存储介质上。
  • 此外,携程还建立定期 review 机制,对 top size 的监控指标和日志数据进行查询治理和存储治理,并将其落地为巡检工具,持续巡检避免资源浪费。

2.优先级区分:

  • 携程通过程序自动化识别和人工支持录入的方式持续更新核心指标,确保有限资源优先保障核心指标的采集、存储和展示。
  • 对于非核心指标,携程采用降采样处理,确保平台容量在核心指标持续增长时不会出现不足。

3. 统一治理:

  • 携程将 Metric、Logging、Trace 三大支柱融合在同一个产品中,消除了多个监控领域的重复建设,统一了多个工具的入口,缩短了用户的排障工具使用路径,实现了各类可观测性数据的联动。
  • 在底层技术方面,携程实现了 Metric 和 Logging 数据的统一查询、存储和治理,不同业务可以基于底层框架进行扩展,但查询层和存储层需要收口在统一产品中,便于统一治理和提升资源利用率。

4. AI 驱动的可观测性:

  • 携程积极探索 AIOps 领域,利用 AI 技术进行数据分析和异常检测,帮助运维人员更快地识别和解决问题。
  • AI 技术可以帮助自动识别和筛选关键指标,优化数据采样策略,提高可观测平台的效率和准确性。

行业展望:

云原生架构带来的可观测性挑战是行业普遍面临的问题,但随着可观测性技术体系的持续发展,这些问题是可以分而治之的。携程的实践经验为行业提供了宝贵的技术见解,也为未来可观测性平台的发展指明了方向。

结论:

携程通过 AI 驱动的可观测平台架构升级实践,成功应对海量数据挑战,实现了高效数据治理与性能平衡。其创新解决方案和经验值得其他企业借鉴,有助于推动可观测性技术的发展,提升企业运维效率和系统稳定性。

参考文献:

  • QCon 上海站:https://www.qcon.com.cn/
  • 携程官网:https://www.ctrip.com/


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注