引言:
在信息爆炸的今天,数据已成为企业发展的核心资产。如何深度挖掘数据价值,为企业战略决策提供有力支持,成为各大企业关注的焦点。快手作为一家互联网巨头,近日宣布从湖仓分离架构升级至湖仓一体,以实现数据的高效利用和优化。本文将带您深入了解快手这一重大架构升级背后的故事。

正文:
一、快手OLAP系统架构升级背景
快手OLAP系统为内外多个场景提供数据服务,每天承载近10亿的查询请求。原有湖仓分离架构由离线数据湖和实时数仓组成,但随着需求变化和数据累积,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。

二、升级目标及选型
为解决上述问题,快手希望引入湖仓一体架构,实现数仓直接分析湖中数据,避免繁琐的数据传输。在众多解决方案中,快手选择了Apache Doris,其强大的分布式SQL查询引擎、灵活的缓存策略和物化视图能力,为快手提供了高性能的数据查询和灵活的数据治理。

三、基于Apache Doris的湖仓一体架构
快手基于Apache Doris升级为湖仓一体分析平台,主要分为以下层级:
1. 数据加工层:数据源数据同步到数据湖仓(Hive/Hudi),并在湖仓系统中完成从ODS层到DWS层的加工处理。
2. 数据缓存层:ADS层数据缓存到Alluxio中,以提供高性能的数据缓存访问能力。
3. 数据查询层:基于Apache Doris提供对ADS层数据的高性能查询服务。

四、缓存服务与优化
湖仓一体架构下,缓存层主要用于提升数据访问性能和稳定性。快手结合Doris的系统架构和特性,对元数据缓存和数据缓存进行了优化。

  1. 元数据缓存:缓存库、表、列、分区、文件等元信息,并及时感知元数据变化。
  2. 数据缓存:缓存ADS层数据,避免远程数据访问可能发生的网络延迟、抖动和带宽不足等问题。

五、总结
快手从湖仓分离到湖仓一体的架构升级,标志着其在大数据领域迈出了重要一步。通过引入Apache Doris,快手实现了数据的高效利用和优化,为企业战略决策提供了有力支持。未来,快手将继续探索大数据技术,为用户提供更优质的服务。

参考文献:
[1] 李振炜,曾斯维,周思闽. 快手从Clickhouse到Apache Doris实现湖仓分离向湖仓一体的升级[J]. InfoQ,2024.
[2] Apache Doris官方文档:https://doris.apache.org/zh-CN/docs/intro.html


>>> Read more <<<

Views: 0

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注