周四. 12 月 26th, 2024

Homework China Saves 81% Resources with MySQL to Lakehouse Migration

作者智能小编

11 月 9, 2024 #InfoQ, #lakehouse, #mysql

shanghai

shanghai

作业帮 MySQL 千表入湖仓实践：资源节省 81%，数据采集效率大幅提升

InfoQ 作者 | 作业帮大数据团队（孙建业、白振冬）

背景

随着作业帮业务的快速发展，对数据采集的要求也越来越高。然而，传统的 MySQL 数据采集链路存在着诸多问题，例如资源消耗过高、稳定性不足、维护成本高昂等，严重影响了数仓表产出和业务分析。

挑战

为了解决这些问题，作业帮决定将 MySQL 数据采集从 Hive 迁移到 Iceberg。然而，迁移过程中也面临着诸多挑战：

部分 MySQL 表更新频率高，存量数据多（百亿级别），单行大小差异很大（Byte 到 10M+），如何自动适配避免人工维护？
如何以最少的资源消耗，同时兼顾采集稳定性？
数据准确性如何保障？迁移过程中需要考虑哪些风险？
历史包袱和迁移效率如何平衡？
项目启动时 Iceberg 1.1、Flink CDC 2.4 存在一些功能缺陷，如何解决？

方案设计

经过深入分析，作业帮团队最终选择了将 MySQL 增量数据写入 Iceberg 表，并利用 Spark 进行 Merge 写入历史 ODS 的方案。

方案对比

| 方案 | 优点 | 缺点 |
|—|—|—|
| Flink Upsert 直接写 Iceberg 表 | 可提供更高数据更新时效性| 1）历史天级别快照 vs 最新数据，业务接受程度低；2）Flink Iceberg Upsert 实现通过 equality delete 完成，受数据更新速度、单行大小等情况影响，查询时会导致不稳定，如果文件太多还有 OOM 风险。还需额外维护 Compaction 动作； |
| Flink Upsert + 定时同步分区快照数据 | 提供更高时效性数据（需求较少），同时一定程度兼容历史用法 | 1）Spark Snapshot 按照事件准确切分实现复杂度高；2）较方案一，Iceberg 读稳定问题未能解决 |
|写入改为增量，利用 Spark 做 Merge 写入历史 ODS | 技术栈成熟，稳定性容易把握，迁移对业务无感 | 数据更新本质是批处理，时效性多为小时级别 |

方案细节

Iceberg 表设计: 作业帮团队根据数据特点和业务需求，设计了高效的 Iceberg 表结构，并利用分区和索引优化数据查询效率。
增量数据采集: 利用 Flink CDC 采集 MySQL 增量数据，并将其写入 Iceberg 表。
历史数据迁移: 利用 Spark 将历史 Hive 数据迁移到Iceberg 表，并进行数据清洗和转换。
数据质量保障: 通过数据校验和监控机制，确保数据迁移和采集过程中的数据准确性。
资源优化: 通过优化 Flink CDC 和 Spark 任务配置，以及利用资源隔离技术，将资源消耗降低了 81%。

成果

资源节省 81%: 通过优化方案和技术手段，将资源消耗降低了 81%，有效提升了资源利用率。
采集效率提升: 数据采集速度大幅提升，表就绪时间 TP90缩短至 2 小时内，有效提升了数仓表产出效率。
数据稳定性提升: 采集链路更加稳定，减少了数据采集失败和数据丢失的风险。
维护成本降低: 简化了数据采集流程，降低了维护成本，提高了运维效率。

未来展望

作业帮团队将继续优化数据采集方案，探索更先进的技术，进一步提升数据采集效率和数据质量，为业务发展提供更强大的数据支持。

参考文献

关键词: MySQL, Iceberg, 数据采集, 湖仓, 资源节省, 效率提升, 稳定性, 维护成本, 数据质量, 作业帮

>>> Read more <<<

Views: 0

相关文章

9月连环杀戮：16条人命竟成高价商品

12 月 24, 2024 智能小编

JapaneseApp Bans Japanese Users Forced to Speak Foreign Languages

12 月 24, 2024 智能小编

日式反差：爆款App禁说日语，引爆热议

12 月 24, 2024 智能小编

发表回复取消回复

为您推荐

9月连环杀戮：16条人命竟成高价商品

2024年12月24日

JapaneseApp Bans Japanese Users Forced to Speak Foreign Languages

2024年12月24日

日式反差：爆款App禁说日语，引爆热议

2024年12月24日

AI设计电影海报：百万成本变零，惊艳之作频出

2024年12月24日