2024年9月10日,北京 —— 随着互联网技术的飞速发展,软件系统的稳定性和可靠性已成为互联网公司的生命线。近日,QCon全球软件开发大会(上海站)邀请到了腾讯、蚂蚁、携程、B站等知名企业的技术专家,分享他们在可靠性工程与AIOps领域的实践经验和见解。
软件稳定性是互联网公司核心竞争力
近年来,多家知名互联网公司因软件系统故障而受到影响,不仅影响了用户体验,也暴露了在可靠性工程和业务连续性规划方面的不足。这些事件促使服务提供商、用户及整个行业开始深刻反思,并加强在这些领域的投入和改进。
线上可靠性工程成为核心竞争力
线上可靠性工程是代码发布到生产环境之后的技术运营过程,是代码产生使用价值的环节。很多公司的SRE工程师会围绕这个环节展开各类工作,例如SLI/SLO管理、故障应急、用户体验优化、重大节点技术保障、容量管理及成本优化、混沌工程、综合算力调度、业务全生命周期工具建设等。
专家分享实践经验
在QCon全球软件开发大会(上海站)上,腾讯IEG技术运营部助理总经理、专家工程师党受辉将围绕可靠性工程展开分享。此外,还邀请了以下专家分享实践经验:
- 腾讯IEG技术运营部SRE总监杨军:分享《全球网络环境下的用户体验优化实践》,介绍腾讯游戏SRE团队如何利用AIOps能力,通过数据工程建立用户体验评价体系,从而优化全球网络环境下的用户体验。
- 蚂蚁集团SRE技术专家刘凯宁:分享《蚂蚁故障应急全流程体系构建及应用实践》,介绍蚂蚁集团在故障应急中的组织阵型、平台能力和评价体系,详细分析故障的全生命周期管理,并展示AIOps和大模型在应急定位中的应用实践。
- 携程云原生研发总监周昕毅:分享《AI驱动下的可观测平台架构升级实践》,介绍携程在内部可观测平台架构升级中的工程实践,涵盖Metrics和Logging数据治理,以及AI工具在平台运维效率提升中的应用。
- 哔哩哔哩基础架构部平台工程负责人刘昊:分享《B站轻量级容灾演练体系构建与业务实践》,介绍B站在容灾演练体系构建中的探索与应用,助力业务多活、大促保障和研发质量交付。
QCon全球软件开发大会(上海站)
QCon全球软件开发大会(上海站)将于10月18-19日在上海举办,覆盖前后端/算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点和传统经典,侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受9折优惠,单张门票立省480元(原价4800元)。详情可联系票务经理17310043226咨询。
Views: 0