AI 驱动的可观测性革新:携程如何应对海量数据挑战
引言: 随着软件架构向微服务和云原生演进,企业对可观测性的需求日益增长。作为全球领先的在线旅游服务平台,携程面临着海量监控数据和日志处理的挑战,这对于平台的高效治理和持续稳定提出了更高的要求。本文将深入探讨携程在应对这些挑战时所采用的创新解决方案,尤其是AI 驱动的可观测平台架构升级实践,以及如何实现高效数据治理与性能平衡。
携程可观测平台现状与挑战:
携程的软件系统和应用复杂度持续增加,导致可观测平台的数据量急剧增长。目前,携程拥有超过 1 万个应用,实例数量超过 100 万个,每分钟产生的指标数据超过 10 亿,日增日志量超过1PB。
主要挑战:
- 信息过载: 海量数据导致信息过载,运维人员难以提取有价值的信息,甚至会掩盖关键问题,延长故障排除时间。
- 性能瓶颈: 处理和存储海量数据需要高性能基础设施,增加机器成本和运维复杂性,可能导致数据延迟或丢失,影响监控数据的时效性。
- 成本增加: 日增 1PB 的日志存储量带来巨大的存储成本压力。
携程的创新解决方案:
1. 数据采样和聚合:
- 针对监控指标,携程采用不同的采样策略,例如聚合时间段内的平均值、最大值、最小值,显著减少数据量。
- 对于日志数据,携程建立冷热数据分层存储机制,将频繁访问的数据存储在快速存储介质上,不常访问的数据存储在较慢但更便宜的存储介质上。
- 此外,携程还建立定期 review 机制,对 top size 的监控指标和日志数据进行查询治理和存储治理,并将其落地为巡检工具,持续巡检避免资源浪费。
2.优先级区分:
- 携程通过程序自动化识别和人工支持录入的方式持续更新核心指标,确保有限资源优先保障核心指标的采集、存储和展示。
- 对于非核心指标,携程采用降采样处理,确保平台容量在核心指标持续增长时不会出现不足。
3. 统一治理:
- 携程将 Metric、Logging、Trace 三大支柱融合在同一个产品中,消除了多个监控领域的重复建设,统一了多个工具的入口,缩短了用户的排障工具使用路径,实现了各类可观测性数据的联动。
- 在底层技术方面,携程实现了 Metric 和 Logging 数据的统一查询、存储和治理,不同业务可以基于底层框架进行扩展,但查询层和存储层需要收口在统一产品中,便于统一治理和提升资源利用率。
4. AI 驱动的可观测性:
- 携程积极探索 AIOps 领域,利用 AI 技术进行数据分析和异常检测,帮助运维人员更快地识别和解决问题。
- AI 技术可以帮助自动识别和筛选关键指标,优化数据采样策略,提高可观测平台的效率和准确性。
行业展望:
云原生架构带来的可观测性挑战是行业普遍面临的问题,但随着可观测性技术体系的持续发展,这些问题是可以分而治之的。携程的实践经验为行业提供了宝贵的技术见解,也为未来可观测性平台的发展指明了方向。
结论:
携程通过 AI 驱动的可观测平台架构升级实践,成功应对海量数据挑战,实现了高效数据治理与性能平衡。其创新解决方案和经验值得其他企业借鉴,有助于推动可观测性技术的发展,提升企业运维效率和系统稳定性。
参考文献:
- QCon 上海站:https://www.qcon.com.cn/
- 携程官网:https://www.ctrip.com/
Views: 0