首页 > 编程语言 >flink状态编程

flink状态编程

时间:2024-01-31 19:44:07浏览次数:26  
标签:count 状态 flatMap 编程 flink current 订单 编号

flink状态编程

简单记录一下最近工作中常用的flink状态

flink中可以创建不同类型的状态,如键控状态(Keyed State)和操作符状态(Operator State)等。状态管理是在流处理的整个过程中保持状态的一种能力,它让我们能够在复杂的事件处理和流转换中保留重要的状态信息,例如:聚合结果、过滤条件、模型参数等。 
 
在flink中,状态具有三个基本特征:可见性(Visibility)、共享性(Shareability)、容错性(Fault Tolerance)。因为在分布式环境中,可能需要对状态进行备份,以实现容错性,所以在状态编程中需要考虑状态的共享性,即该状态是否应该被多个任务共享。同时,还需要考虑状态的可见性,即应该让哪个任务可以访问该状态。 
 
下面是一个键控状态的示例,用于统计每个键(key)出现的次数:

  1. DataStream<Tuple2<String, Integer>> keyedStream = ...;
  2. DataStream<Tuple2<String, Integer>> resultStream = keyedStream
  3. .keyBy(0)
  4. .flatMap(new CountFunction());
  5. public class CountFunction extends RichFlatMapFunction<Tuple2<String, Integer>, Tuple2<String, Integer>> {
  6. private transient ValueState<Integer> count;
  7. public void flatMap(Tuple2<String, Integer> input, Collector<Tuple2<String, Integer>> out) throws Exception {
  8. Integer currentCount = count.value();
  9. if (currentCount == null) {
  10. currentCount = 0;
  11. }
  12. currentCount++;
  13. count.update(currentCount);
  14. out.collect(new Tuple2<>(input.f0, currentCount));
  15. }
  16. public void open(Configuration config) {
  17. ValueStateDescriptor<Integer> descriptor = new ValueStateDescriptor<>("count", IntSerializer.INSTANCE);
  18. count = getRuntimeContext().getState(descriptor);
  19. }
  20. }

在此示例中,我们创建了一个键控流( keyedStream ),并使用 keyBy() 方法按键(key)分组。然后,我们定义了一个 flatMap() 函数,它能够在键控流中为每个键计数。 RichFlatMapFunction 类使我们能够在函数内部维护状态。我们定义了一个 ValueState 变量( count ),它将在函数执行时存储每个键的计数。在 flatMap() 函数中,我们使用 count.value() 方法获取当前计数,并将计数递增。最后,在更新计数后,我们将键和当前计数作为元组发送到输出流中。在 open() 方法中,我们使用 ValueStateDescriptor 类定义了 count 变量的状态描述符,即该状态的名称和数据类型。  getRuntimeContext().getState(descriptor) 方法创建了一个键控状态变量,并返回其实例。

下面是一个基于这段代码的更具体的实例: 
假设我们有一个数据流,其中包含了一系列订单,每个订单中包含了订单编号和订单金额。我们需要统计每个订单编号出现的次数,并计算每个订单编号的平均订单金额。 
 首先,我们需要使用flink的流处理API创建一个数据流( DataStream ),其中包含了订单数据。然后,我们需要使用 keyBy() 方法按照订单编号进行分组,以便进行订单计数和平均金额的统计。接下来,我们定义一个状态变量( count 和 sum ),并在 open() 方法中为状态变量创建一个状态描述符( ValueStateDescriptor )。在 flatMap() 方法中,我们获取当前订单编号的计数和订单金额总额,通过更新状态变量来累加订单数和总金额,最后计算平均金额,并将订单编号、订单数和平均金额作为一个新的元素添加到结果流中。

  1. DataStream<Tuple2<String, Double>> orders = ...;
  2. DataStream<Tuple3<String, Integer, Double>> stats = orders
  3. .keyBy(0)
  4. .flatMap(new OrderStats());
  5. public class OrderStats extends RichFlatMapFunction<Tuple2<String, Double>, Tuple3<String, Integer, Double>> {
  6. private transient ValueState<Tuple2<Integer, Double>> state;
  7. public void flatMap(Tuple2<String, Double> input, Collector<Tuple3<String, Integer, Double>> out) throws Exception {
  8. Tuple2<Integer, Double> current = state.value();
  9. if (current == null) {
  10. current = new Tuple2<>(0, 0.0);
  11. }
  12. current.f0++;
  13. current.f1 += input.f1;
  14. state.update(current);
  15. double avg = current.f1 / current.f0;
  16. out.collect(new Tuple3<>(input.f0, current.f0, avg));
  17. }
  18. public void open(Configuration config) {
  19. ValueStateDescriptor<Tuple2<Integer, Double>> descriptor = new ValueStateDescriptor<>("orderStats",
  20. TypeInformation.of(new TypeHint<Tuple2<Integer, Double>>() {
  21. }));
  22. state = getRuntimeContext().getState(descriptor);
  23. }
  24. }

首先,创建了一个包含订单数据的数据流( orders ),其中每个元素都是一个包含订单编号和订单金额的元组。然后,我们使用 keyBy() 方法按照订单编号进行分组,并将其传递给一个自定义的 OrderStats 函数。在 OrderStats 函数中,我们定义了一个键控状态变量( state ),用来维护每个订单编号的订单数和总金额。在 flatMap() 方法中,我们从状态中获取当前订单编号的订单数和总金额,并根据新的订单金额更新状态。然后,我们计算平均金额并将订单编号、订单数和平均金额作为一个新的元素添加到结果流中。在 open() 方法中,我们定义了一个 ValueStateDescriptor 来描述状态变量,并使用 getRuntimeContext().getState(descriptor) 方法获取状态实例。 
 当代码运行时,它会根据订单编号进行分组,并计算每个订单编号的订单数和总金额。然后,它会将统计信息作为元组添加到结果流中,这样我们就可以判断每个订单编号的数量和平均金额了。

希望这个简单的实例能对大家有帮助!

原文链接:https://blog.csdn.net/weixin_52542476/article/details/130427150

标签:count,状态,flatMap,编程,flink,current,订单,编号
From: https://www.cnblogs.com/sunny3158/p/17999961

相关文章

  • linux之socket编程
    linux之socket编程源IP地址与目的IP地址任何主机想要进行网络通信,首先就要拥有IP地址!因为每台主机都有网络地址就注定了有——源IP与目的IP消息从哪里发送——发送主机的IP就是源IP消息要到哪里——接收消息的主机的IP就是目的IP!在IP报头里面就包含了源IP与目的IP端口号......
  • python网络编程笔记(一)Socket 编程入门
    一:Socket简介套接字起源于20世纪70年代加利福尼亚大学伯克利分校版本的Unix,即人们所说的BSDUnix。因此,有时人们也把套接字称为“伯克利套接字"或"BSD套接字”。一开始,套接字被设计用在同-台主机上多个应用程序之间的通讯BSDSocket接口是TCP/IP网络的API在Linux,Unix和W......
  • python网络编程(二)模拟ssh远程执行命令
    1、项目需求:要实现一个像ssh远程连接工具一样,在终端输入命令,返回对应的结果。比如window的dos命令:dir:查看目录下的文件ipconfig:查看网卡信息tasklist:查看进程列表linux的命令:ls:查看目录下的文件ifconfig:查看网卡信息ps-aux:查看进程列表2、项目分析:这......
  • python网络编程(三)实现文件下载功能
    一:目标:要实现一个客户端从服务端下载文件的功能,这个在模拟ssh远程执行命令的基础上再做修改就可以了二:分析:1、要规定客户端获取文件的格式:下载文件用get文件名,比如要下载服务端的a.txt,就写成geta.txt2、因为我目前是客户端和服务端都是在一台服务器上,我模拟的时候就把......
  • python网络编程(四)用面向对象方式实现文件上传下载
    一:背景在之前已经实现了文件的下载,现在再来完善上传功能,并且使用面向对象来封装,让代码看起来更加清楚明了。二:使用规则和运行结果下载文件,下载格式get文件名get空格后面直接接文件名称,在服务端存放的文件名上传文件,上传格式put文件路径+文件名因为是上传,上传的时......
  • 初始安装 Prometheus 监控k8s组件 target 状态显示失败的处理办法
    当我们使用Kubeadm完成Kubernetes的搭建时,默认控制面的组件的metrics端点会监听在本机127.0.0.1接口上,这会导致Prometheus/kube-Prometheus-stack开局配置无法从自动发现的端点拉取到指标。方法有如下两种:在使用kubeadm初始安装集群时,更新相关配置在Kubernete......
  • Windows Powershell 执行结束 返回状态码
    前言全局说明WindowsPowershell执行结束返回状态码一、1.源码用于将文件复制到文件夹的Powershell脚本$dest="C:est"New-Item$dest-typedirectory-force$source="c:samplefile.txt"Copy-Item$source$destexit$LASTEXITCODE$LASTEXITCODE保存Powershel......
  • 状态模式
    定义:允许一个对象在其内部状态改变时,改变它的行为类型:行为型适用场景:一个对象存在多个状态(不同状态下行为不同),且状态可以相互转换优点:将不同的状态隔离把各种状态的转换逻辑,分布到State的子类中,减少相互间依赖增加新的状态非常简单缺点:状态多的业务场景导致类数目增加,......
  • Visual Studio 2015+Qt编程,如何使用qDebug()打印出信息
    问题:VisualStudio2015+Qt编程,调试程序的时候,使用qDebug()发现在vs的输出界面没有打印出qDebug()的信息。找到了最容易的解决办法(此方法只可以解决此解决方案的):1.项目文件名那里鼠标右键,点击属性,打开属性页 2.找到连接器->系统->子系统 3.将子系统由窗口改为控制台,点击......
  • 深入浅出Java多线程(四):线程状态
    引言大家好,我是你们的老伙计秀才!今天带来的是[深入浅出Java多线程]系列的第四篇内容:线程状态。大家觉得有用请点赞,喜欢请关注!秀才在此谢过大家了!!!在现代软件开发中,多线程编程已经成为提升应用程序性能和响应能力的关键技术。Java作为一门支持多线程编程的主流语言,其内置的丰富并......