Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

引言:
在信息爆炸的今天,数据已成为企业发展的核心资产。如何深度挖掘数据价值,为企业战略决策提供有力支持,成为各大企业关注的焦点。快手作为一家互联网巨头,近日宣布从湖仓分离架构升级至湖仓一体,以实现数据的高效利用和优化。本文将带您深入了解快手这一重大架构升级背后的故事。

正文:
一、快手OLAP系统架构升级背景
快手OLAP系统为内外多个场景提供数据服务,每天承载近10亿的查询请求。原有湖仓分离架构由离线数据湖和实时数仓组成,但随着需求变化和数据累积,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。

二、升级目标及选型
为解决上述问题,快手希望引入湖仓一体架构,实现数仓直接分析湖中数据,避免繁琐的数据传输。在众多解决方案中,快手选择了Apache Doris,其强大的分布式SQL查询引擎、灵活的缓存策略和物化视图能力,为快手提供了高性能的数据查询和灵活的数据治理。

三、基于Apache Doris的湖仓一体架构
快手基于Apache Doris升级为湖仓一体分析平台,主要分为以下层级:
1. 数据加工层:数据源数据同步到数据湖仓(Hive/Hudi),并在湖仓系统中完成从ODS层到DWS层的加工处理。
2. 数据缓存层:ADS层数据缓存到Alluxio中,以提供高性能的数据缓存访问能力。
3. 数据查询层:基于Apache Doris提供对ADS层数据的高性能查询服务。

四、缓存服务与优化
湖仓一体架构下,缓存层主要用于提升数据访问性能和稳定性。快手结合Doris的系统架构和特性,对元数据缓存和数据缓存进行了优化。

  1. 元数据缓存:缓存库、表、列、分区、文件等元信息,并及时感知元数据变化。
  2. 数据缓存:缓存ADS层数据,避免远程数据访问可能发生的网络延迟、抖动和带宽不足等问题。

五、总结
快手从湖仓分离到湖仓一体的架构升级,标志着其在大数据领域迈出了重要一步。通过引入Apache Doris,快手实现了数据的高效利用和优化,为企业战略决策提供了有力支持。未来,快手将继续探索大数据技术,为用户提供更优质的服务。

参考文献:
[1] 李振炜,曾斯维,周思闽. 快手从Clickhouse到Apache Doris实现湖仓分离向湖仓一体的升级[J]. InfoQ,2024.
[2] Apache Doris官方文档:https://doris.apache.org/zh-CN/docs/intro.html


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注