2024/2/16学习进度笔记

时间：2024-02-16 23:22:25浏览次数：34

标签：DAG 16 笔记 2024 RDD Streaming Spark DStream 数据

Spark Streaming 支持的数据输入源很多，例如：Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。另外Spark Streaming 也能和 MLlib（机器学习）以及 Graphx 完美融合。

流数据特点：

数据一直在变化
数据无法回退
数据始终源源不断涌进

DStream

和 Spark 基于 RDD 的概念很相似，Spark Streaming 使用离散化流(discretized stream)作为抽象表示，叫作DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而DStream 是由这些RDD 所组成的序列(因此得名“离散化”)。

DStream形成步骤：

针对某个时间段切分的小数据块进行RDD DAG构建；
连续时间内产生的一连串小的数据进行切片处理分别构建RDD DAG，形成DStream；

定义一个RDD处理逻辑，数据按照时间切片，每次流入的数据都不一样，但是RDD的DAG逻辑是一样的，即按照时间划分成一个个batch，用同一个逻辑处理。

标签：DAG,16,笔记,2024,RDD,Streaming,Spark,DStream,数据
From： https://www.cnblogs.com/wzs-study/p/18017633

读书笔记2
《构建之法》第二章个人技术和流程这一章重点介绍的是我之前从未重视过的单元测试和回归测试；个人素养是团队协作的基础。单元测试是指对软件中的最小可测试单元进行测试，通常是对代码中的函数、方法或类进行测试，以确保其功能的正确性。单元测试通常由开发人员编写，用于验证代码的......
2024年2月校内集训
......
书生开源大模型训练营-第3讲-笔记
1、大模型的局限性a、知识只能截止到训练时间；b、垂直领域的专业能力有限；c、训练成本高，定制化成本高； 2、解决大模型局限性的两种思路RAGVSFTRAG：外挂一个知识库，通过检索得到文档，再将检索到文档和问题一起输入给大模型来生成答案。优点：成本极低、知识可更新；缺点：受限于基座大......
2.16 闲话 & solution『漆黑的夜中透出了一点点微光/早就应该习惯/忽明忽暗酒阑人散』
为啥只有我和CuFeO4【数据删除】，别人都没【数据删除】，血亏，下次绝对不【数据删除】了明天有CF，希望能打在写\(\text{NTT}\)惹，但是没有达成写4题呜呜明天有模拟赛唔，首先是朴素\(dp\)骗分，设\(dp_{i,j}\)表示已经取到了\(i\)个，其中取模后结果为\(j\)的方案数，容易有转移\[......
Solution Set【2024.2.16】
A.寄（post）对于点对贡献问题考虑在最近公共祖先处计算答案，称给定的\(m\)个点为关键点，选择的\(k\)个点为选择点。既然我们已经要求了对于每一对关键点和选择点均在其最近公共祖先处计算答案，那么这也就意味着，存在某些节点，其子树中的关键点/选择点不会与其子树内的选择点/关......
AC466A 2024省选联测19 寄（post）
题意一棵有边权的树，给定\(m\)个关键点，让你选择若干个点，使得每个关键点到你选择的点的距离的最小值之和加上选择的点的个数乘\(C\)最小。求这个最小值。\(n\le3000\)Sol考虑将选择点的个数扔掉，直接考虑对于每个点加上\(C\)的贡献。设\(f_{i,j}\)表示\(i\)的贡献......
闲话2.16
刚写了个唐氏鞋油，感觉自己跟唐一样......
2024.2.16 そんな凡庸を探して、探している
Namid[A]me好听呢。可惜了。今天DP专题感觉laofu选的题有点经典，导致我有一半时间在摸鱼，不过还是写了点题的。怎么西工大附中有糖醋茄子这种神秘菜啊。ICPC2020MacauBBoringProblem其实不一定懂完了，试着说一说。显然询问没什么用，问题本质是要求解一个AC自动机上游......
洛谷P6169 [IOI2016] Molecules
洛谷传送门分析结论：如果存在解，则一定有一个解使得选的数是排序后的一段前缀并上一段后缀。下文所说序列均已排序。引理：对于一个可行解选的某个数，一定可以将其换成序列中的最小数或最大数而使得换完之后还是一个可行解。证明：反证法。假设都不可换。设当前选的所有数的和为\(......
CF1624D【黄】-思维题
题目：https://www.luogu.com.cn/problem/solution/CF1624D这道题很简单，但是启发我把这一类题都起名为思维题，贪心题大部分都是思维题，但还有很多不属于贪心题的思维题，总之思维题就是考察思维能力，和算法无关，通常能做出来的都能轻松做出，做不出来的想破头也想不出来，这道题属于前者。C......

2024/2/16学习进度笔记

DStream

相关文章

赞助商

阅读排行