
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
大数据强调数据有热度,数据价值具有时效性且随着时间的推移价值会递减,这是大家的共识,也是实时计算和准实时计算日益受到业界重视的原因,笔者没有太多补充,不过我想指出一点,即实时计算究竟需要做到什么级别的实时,是在业务需求,现有技术能力,和运维复杂性之间的妥协,并不是一定总是要追求毫秒微妙级别的实时,很多时候秒级别分钟级别甚至小时级别的延时,也是可以接受的。
业界这块相关的概念有流批一体,仔细分析又包括存储引擎层面的流批一体,计算框架层面的流批一体,以及业务代码层面的流批一体。
在存储引擎层面,离线批量处理场景一般使用文件系统结合数据库;实时准实时流处理场景一般使用消息队列结合数据库。不过随着数据湖仓概念的崛起,尤其是伴随着 delta lake/hudi/iceberg 的崛起和 hive 实时化的进展,使用这些框架做流批一体的存储的案列将会越来越多(当然对应的场景是分钟级别的准实时的场景);随着 kafka 支持tiered storage , 使用 kafka结合对象存储并配置合适的 retention period 做流批一体的存储的案例也会越来越多。
在计算框架层面,flink 和 spark 都支持流批一体,即同一个计算框架即支持用户的流处理应用程序,也支持用户的批处理应用程序。
在业务代码层面的流批一体上,即同一套业务代码,不做任何代码层面的改动,仅仅通过配置不同的参数,就能提交做为流处理或批处理应用程序运行,目前看来似乎 FLINK SQL 走得最远做得最好。
南宁达内IT培训免费试听课程火热报名中,带你轻松入行,26大课程全国45个城市,129家中心均可就近学习,学完后,达内老师会帮助进行面试辅导,在面试前,就带你跨过可能存在的坑,让你入职更加顺利。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请添加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。