初识实时流处理
一、业务现状分析 二、实时流处理产生背景 三、实时流处理概述 四、离线计算与实时计算对比数据来源
离线:HDFS 历史数据,数据量比较大
实时:消息队列(Kafka) 实时新增、修改记录过来的某一笔数据
处理过程
离线:MapReduce : map+reduce
实时:Spark(DStream/SS)
处理速度
离线:慢
实时:快
进程
离线:启动+销毁
实时:7*24
Apache Storm :真的实时(常用)
Apache Spark Streaming :微小的批处理(常用)
IBM Stream
Yahoo!S4
LinkedIn Kafka
Apache Flink:实时流,离线批处理
电信行业:实时监控计算流量的使用,套餐快用完了!流量陷阱,不停的传送数据,给出警告。
电商行业:双十一大屏。搜索A商品,实时推荐B商品。