分布式计算模式：Stream

什么是流数据？
实时性任务主要是针对流数据处理，对处理时延要求很高，通常需要常驻服务进程，等待数据的随时到来随时处理，以保证低时延。

流数据有4个特征：

数据如流水般持续、快速到达。
海量数据规模，数据量可以达到TB或者PB级别。
对实时性要求高，随着时间流逝，数据的价值会大大降低。
数据顺序无法保证。

流计算一般用于处理数据密集型应用，它实时获取来自不同数据源的海量数据，进行实时分析处理，获得有价值信息。

使用流计算进行数据处理，包括3个步骤：

提交流式计算作业。系统再运行期间，由于收集的是同一类型的数据，执行的事同一种服务，因此流式计算作业处理逻辑不可更改。如果用户停止当前作业运行后再次提交作业，由于流计算不提供数据存储服务，因此之前已经计算完成的数据无法重新再次计算。
加载流逝数据进行流计算。流式计算作业一旦启动将一直处于等待事件出发的状态，一旦有小批量数据进入流逝数据存储，系统会立刻执行计算逻辑并得到结果。
持续输出计算结果。在得到小批量数据的计算结果后，流计算会立刻将结果数据写入在线/批量系统，无需等待整体数据的计算结果。

详细的流程如下。

流计算不提供流式数据的存储服务，数据是持续流动的，在计算完成后会立刻丢弃。流计算适用于需要处理持续到达的数据流，对数据处理有较高实时性要求的场景，为了及时处理流数据，流计算框架必须是低延迟、可扩展、高可靠的。

Apache Storm和MapReduce有什么区别？

Hadoop上运行的是“MapReduce作业”，Storm上运行的是“计算拓扑”。MapReduce的一个作业在得到结果之后会结束，而计算拓扑在没有杀死进程前会一直运行。

Storm集群包括两种节点：主节点和工作节点：

Nimbus是整个Storm集群的守护进程，以唯一实例的方式运行在主节点上。它负责把任务分配和分发给集群的工作节点，并监控这些任务的执行情况，当某个节点故障时，它会重新将分配到该节点的任务转到其他节点。
Supervisor是Storm集群中的工作守护进程，每个工作节点都存在一个这样的实例。它通过ZooKeeper和Nimbus守护进程通信。

Storm的结构图如下。

Storm为数据流转换提供了基本组件Spout和Bolt：

Spout主要用于接收源数据，它会从一个外部的数据源读取数据元组，然后将它们发送到拓扑中。
Bolt负责处理输入的数据流，数据处理后可能输出新的流作为下一个Bolt的输入。每个Bolt通常只具备单一的计算逻辑，复杂的数据流转换通常需要使用多个Bolt并通过多个步骤完成。

流计算和批量计算有什么区别？

它们有各自的适用场景。批量计算适用于对时延要求低的任务，流计算适用于低延时、易扩展的场景，例如直播中音视频的处理。

下面是流计算和批量计算的详细比较。

标签：计算,作业,Day14,算法,Bolt,Storm,数据,节点,分布式
From： https://www.cnblogs.com/wing011203/p/17128904.html

排序算法
写出对数组12，23，8，15，33，24，77，55进行一趟选择排序、冒泡排序、插入排序、快速排序的过程和结果 ......
代码随想录算法训练营第三十二天 | 122.买卖股票的最佳时机II，55. 跳跃游戏，45.跳跃游戏
一、参考资料买卖股票的最佳时机IIhttps://programmercarl.com/0122.%E4%B9%B0%E5%8D%96%E8%82%A1%E7%A5%A8%E7%9A%84%E6%9C%80%E4%BD%B3%E6%97%B6%E6%9C%BAII.html......
代码随想录算法训练营第三十三天 | 1005.K次取反后最大化的数组和，134. 加油站，135. 分
一、参考资料K次取反后最大化的数组和https://programmercarl.com/1005.K%E6%AC%A1%E5%8F%96%E5%8F%8D%E5%90%8E%E6%9C%80%E5%A4%A7%E5%8C%96%E7%9A%84%E6%95%B0%E7%B......
代码随想录算法训练营第三十一天 | 贪心专题-理论基础，455.分发饼干，376. 摆动序列，53.
一、参考资料理论基础https://programmercarl.com/%E8%B4%AA%E5%BF%83%E7%AE%97%E6%B3%95%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80.html分发饼干https://programmerc......
代码随想录算法训练营第三十天 | 332.重新安排行程，51. N皇后，37. 解数独，总结
Day29休息~一、参考资料重点！！回溯算法总结篇https://programmercarl.com/%E5%9B%9E%E6%BA%AF%E6%80%BB%E7%BB%93.html组合问题：N个数里面按一定规则找出k个数的集......
算法杂记 2023/02/16
算法杂记2023/02/16目录算法杂记2023/02/16D.DifferentArrays2000今天分享的是Codeforce上的一道2000分的动态规划+计数题。目前的目标是从紫冲橙。D.Dif......
算法随想Day14【二叉树】| LC104-二叉树的最大深度、LC111-二叉树的最小深度、LC222-
深度二叉树任意一个节点到根节点的距离（这条路径包含的节点数）高度二叉树任意一个节点到叶子节点的距离LC104.二叉树的最大深度递归解法intmaxdepth(treenode*root)......
代码随想录算法训练营第十五天【二叉树】层序遍历、226.翻转二叉树、101.对称二叉树
层序遍历 226.翻转二叉树 101.对称二叉树 ......
代码随想录算法训练营第十六天【二叉树】104.二叉树的最大深度、559.n叉树的最大深度
104.二叉树的最大深度 559.n叉树的最大深度 111.二叉树的最小深度 222.完全二叉树的节点个数 ......
代码随想录算法训练营第二天 | 977.有序数组的平方，209.长度最小的子数组，59.螺旋矩
有序数组的平方解法:双指针1,因为最大值只可能是原数组的最左端方或最右端方取得,最小值无法确定,所有从右边开始赋值长度最小的子数组:滑动窗口1,滑动模......

《分布式技术原理与算法解析》学习笔记Day14

分布式计算模式：Stream

相关文章

赞助商

阅读排行