Spark Streaming

1、流处理和批处理

1，流处理处理过程

数据采集(实时采集)工具:flume

数据先放到消息队列做缓冲，第一步往第二步放数据的过程叫做生产，第三步从第二部取数据的过程叫做消费，mq中的数据有索引

MQ:消息队列（message queue）：kafka 特点：先进先出

计算框架：flink、spark streaming、

通过socket模拟这个过程

2，批处理过程

数据采集读到的数据先到mq（消息队列）再到db（hdfs），用离线框架去读数据

消息队列一般会保存7天

2、离线计算和实时计算的特点

两者对比

实时计算面对的挑战？

标签：队列,离线,实时,Streaming,Spark,数据
From： https://www.cnblogs.com/wqy1027/p/16837439.html

Spark SQL读取parquet文件
Parquet是一种流行的列式存储格式，可以高效地存储具有嵌套字段的记录，还可以针对相同类型的列进行压缩。介绍：使用：......
基于spark的单词计数统计
单词计数：直接查看官网：http://spark.apache.org/examples.html小案例，自己再次基础上进一步的实现，我用了两种语言实现主要文件：words.txt:hellomehelloyouhellohe......
四、Spark性能调优
目录1.常规性能调优常规性能调优一：最优资源配置常规性能调优二：RDD优化RDD复用RDD持久化 RDD尽可能早的filter操作常......
Spark SQL优化总结2
接上文内存优化用以下三张表，做性能测试RDD1.1.1cacheimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.{Row,SparkSession}objectMemoryTuning{defmai......
Spark有状态算子
Spark有状态算子不仅可以计算当前批次的结果，还可以结合上一次的结果，并对两次结果进行汇总packagecom.streamingimportorg.apache.spark.sql.SparkSessionimportor......
sparkCore
spark第二天1、打包代码到yarn上运行将代码提交到Yarn.上运行1、将setMaster代码注释，使用提交命令设置运行方式2、修改输入输出路径，并准备数据3、打包上传至服务器4......
sparkSql
SparkSQL&sparkDSL1、SparkSQL(1)、构建SparkSessionspark2.x统一入口如果要与hive进行交互，在建立spark入口时加上.enableHiveSupport()（1）首先添加依赖： <dependen......
local spark config
Sparklocalhivemetadatastore Skiptoendofmetadata Bydefault,sparkwilluseembeddedDerbydatabasetostoremetadata,butifwedon'tconfi......
Mac环境下，配置spark连接hive的本地开发环境
目录安装hadoop一、配置sshlocalhost二、安装和配置三、启动服务安装hive一、下载配置二、修改Metastore数据库配置三、初始化配置spark配置连接hive环境安装hadoopmac......
Spark通过打jar包形式提交任务
idea构建项目创建一个maven项目，配置pom依赖，以及scala编译插件。注意一定要保证，你的scala版本和spark版本和要提交的集群版本一致，要不很多莫名其妙的问题，scala如果你在wi......

Spark Streaming

Spark Streaming

1、流处理和批处理

1，流处理处理过程

2，批处理过程

2、离线计算和实时计算的特点

实时计算面对的挑战？

相关文章

赞助商

阅读排行