大数据架构如何做到流批一体?
|
Kappa+是 Uber 提出流式数据处理架构,它的核心思想是让流计算框架直读 HDFS类的数仓数据,一并实现实时计算和历史数据 backfill 计算,不需要为 backfill 作业长期保存日志或者把数据拷贝回消息队列。Kappa+ 将数据任务分为无状态任务和时间窗口任务,无状态任务比较简单,根据吞吐速度合理并发扫描全量数据即可,时间窗口任务的原理是将数仓数据按照时间粒度进行分区存储,窗口任务按时间序一次计算一个 partition 的数据,partition 内乱序并发,所有分区文件全部读取完毕后,所有 source 才进入下个 partition 消费并更新 watermark。事实上,Uber 开发了Apache hudi 框架来存储数仓数据,hudi 支持更新、删除已有 parquet 数据,也支持增量消费数据更新部分,从而系统性解决了问题2存储的问题。下图3是完整的Uber 大数据处理平台,其中 Hadoop -> Spark -> Analytical data user 涵盖了Kappa+ 数据处理架构。
混合分析系统的 Kappa 架构 (编辑:沧州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 百度VR免费技术服务+产品福利扶持,助力复工企业化解营销难
- sai1怎么调整笔刷大小 一个选项完成
- 让城市更智慧!华为智慧城市神经系统自下至上展现更强战力
- VR恐怖生存游戏《Project TERMINUS》启动Kickstarter众筹
- 无线路由器和光猫有什么区别 这篇文章告诉你
- PDF猫OCR文字识别怎么识别图片文字 一个步骤搞定
- VR游戏《The Down The Rabbit Hole》将于3月26日正式上市
- Apache Flink 漫谈系列(11) - Temporal Table JOIN
- VR射击游戏《Superhot VR》在圣诞节期间热卖200万美元
- Oculus Quest手动跟踪功能将提高休闲类VR游戏的体验



