首页 > 其他分享 >Flink on Yarn三部曲之三:提交Flink任务

Flink on Yarn三部曲之三:提交Flink任务

时间:2022-12-05 20:04:53浏览次数:88  
标签:hdfs 之三 Flink wordcount Yarn result txt

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos

  • 本文是《Flink on Yarn三部曲》系列的终篇,先简单回顾前面的内容:
  1. 《Flink on Yarn三部曲之一:准备工作》:准备好机器、脚本、安装包;
  2. 《Flink on Yarn三部曲之二:部署和设置》:完成CDH和Flink部署,并在管理页面做好相关的设置;

现在Flink、Yarn、HDFS都就绪了,接下来实践提交Flink任务到Yarn执行;

前文链接

  1. 《Flink on Yarn三部曲之一:准备工作》
  2. 《Flink on Yarn三部曲之二:部署和设置》

两种Flink on YARN模式

  • 实践之前,对Flink on YARN先简单了解一下,如下图所示,Flink on Yarn在使用的时候分为两种模式, Job ModeSession Mode在这里插入图片描述
  • Session Mode :在YARN中提前初始化一个Flink集群,以后所有Flink任务都提交到这个集群,如下图: 在这里插入图片描述
  • Job Mode :每次提交Flink任务都会创建一个专用的Flink集群,任务完成后资源释放,如下图: 在这里插入图片描述
  • 接下来分别实战这两种模式;

准备实战用的数据(CDH服务器)

  • 接下来提交的Flink任务是经典的WordCount,先在HDFS中准备一份文本文件,后面提交的Flink任务都会读取这个文件,统计里面每个单词的数字,准备文本的步骤如下:

  • SSH登录CDH服务器;

  • 切换到hdfs账号: su - hdfs

  • 下载实战用的txt文件:

wget https://github.com/zq2599/blog_demos/blob/master/files/GoneWiththeWind.txt
  • 创建hdfs文件夹: hdfs dfs -mkdir /input

  • 将文本文件上传到/input目录: hdfs dfs -put ./GoneWiththeWind.txt /input

  • 准备工作完成,可以提交任务试试了。

Session Mode实战

  • SSH登录CDH服务器;
  • 切换到hdfs账号: su - hdfs
  • 进入目录: /opt/flink-1.7.2/
  • 执行如下命令创建Flink集群, -n 参数表示TaskManager的数量, -jm 表示JobManager的内存大小, -tm 表示每个TaskManager的内存大小:
./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024
  • 创建成功后,控制台输出如下图,注意红框中的提示,表明可以通过38301端口访问Flink: 在这里插入图片描述
  • 浏览器访问CDH服务器的38301端口,可见Flink服务已经启动: 在这里插入图片描述
  • 浏览器访问CDH服务器的8088端口,可见YARN的Application(即Flink集群)创建成功,如下图,红框中是任务ID,稍后结束Application的时候会用到此ID: 在这里插入图片描述
  • 再开启一个终端,SSH登录CDH服务器,切换到hdfs账号,进入目录: /opt/flink-1.7.2
  • 执行以下命令,就会提交一个Flink任务(安装包自带的WordCount例子),并指明将结果输出到HDFS的 wordcount-result.txt 文件中:
bin/flink run ./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result.txt
  • 执行完毕后,控制台输出如下: 在这里插入图片描述
  • flink的WordCount任务结果保存在hdfs,我们将结果取出来看看: hdfs dfs -get /wordcount-result.txt
  • vi打开wordcount-result.txt文件,如下图,可见任务执行成功,指定文本中的每个单词数量都统计出来了: 在这里插入图片描述
  • 浏览器访问Flink页面(CDH服务器的38301端口),也能看到任务的详细情况: 在这里插入图片描述
  • 销毁这个Flink集群的方法是在控制台执行命令: yarn application -kill application_1580173588985_0002 在这里插入图片描述
  • Session Mode的实战就完成了,接下来我们来尝试Job Mode;

Job Mode

  • 执行以下命令,创建一个Flink集群,该集群只用于执行参数中指定的任务(wordCount.jar),结果输出到hdfs的wordcount-result-1.txt文件:
bin/flink run -m yarn-cluster \
-yn 2 \
-yjm 1024 \
-ytm 1024 \
./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result-1.txt
  • 控制台输出如下,表明任务执行完成: 在这里插入图片描述
  • 如果您的内存和CPU核数充裕,可以立即执行以下命令再创建一个Flink集群,该集群只用于执行参数中指定的任务(wordCount.jar),结果输出到hdfs的 wordcount-result-2.txt 文件:
bin/flink run -m yarn-cluster \
-yn 2 \
-yjm 1024 \
-ytm 1024 \
./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result-2.txt
  • 在YARN管理页面可见任务已经结束: 在这里插入图片描述
  • 执行命令 hdfs dfs -ls / 查看结果文件,已经成功生成: 在这里插入图片描述
  • 执行命令 hdfs dfs -get /wordcount-result-1.txt 下载结果文件到本地,检查数据正常;
  • 至此,Flink on Yarn的部署、设置、提交都实践完成,《Flink on Yarn三部曲》系列也结束了,如果您也在学习Flink,希望本文能够给您一些参考,也建议您根据自身情况和需求,修改ansible脚本,搭建更适合自己的环境;

欢迎关注51CTO博客:程序员欣宸

学习路上,你不孤单,欣宸原创一路相伴...

标签:hdfs,之三,Flink,wordcount,Yarn,result,txt
From: https://blog.51cto.com/zq2599/5908958

相关文章

  • Flink的时间语义,以及使用场景
    有哪些时间语义:EventTime  ProcessingTime  IngestionTime使用场景:EventTime:数据本身携带时间,事件达到Flink之前就已经确定的。ProcessingTime:需要低延迟......
  • Flink on Yarn三部曲之二:部署和设置
    欢迎访问我的GitHub这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos本文是《FlinkonYarn三部曲》系列的第二篇,上一篇《FlinkonY......
  • 大数据学习之Flink(六)
    FlinkSQL1、SQL-ClientFlink提供的SQL客户端准备工作启动yarn-sessionyarn-session.sh-d启动FlinkSQL客户端sql-client.sh2、数据源Kafka准备工作......
  • flink开发指南
    flink开发指南目录flink开发指南flink1.13.5技巧flinkpom常见BugNonewdatasinkshavebeendefinedflink本地调试启动webUI指定portxxDroolsWorkbenchwrite-hba......
  • Flink被阿里收购4年,最开心的却是Spark背后的Databricks
    最近,FlinkForwardAsia(FFA)峰会成功举行,有关Flink的讨论,又开始在国内热闹起来。2022年,ApacheFlink社区保持快速发展:GitHubStar数突破2万,单月下载量突破1400万次;A......
  • HDFS,MapReduce,Yarn 的架构思想和设计原理
        大家好,我是梦想家Alex。之前我也写了不少关于大数据技术组件的文章,例如:​​     前方高能|HDFS的架构,你吃透了吗?​​​​     MapReduce......
  • Flink-使用flink处理函数以及状态编程实现TopN案例
    7.5应用案例-TopN7.5.1使用ProcessAllWindowFunction场景例如,需要统计最近10秒内最热门的两个url链接,并且每5秒思路使用全窗口函数ProcessAllWindowFunction开......
  • 大数据学习之Flink(三)
    Flink可以从各种来源获取数据,构建DataStream进行转换处理,source就是我们整个处理程序的输入端从kafka中读取数据bjectKafKaSourceClass{defmain(args:Array[Stri......
  • [FAQ] 在 Mac 系统上 yarn add canvas 安装失败的原因
     当使用yarnadd安装某个node库时,如果出现失败,多半是由于nodejs版本问题引起的。现在我们可以使用nvm方便的管理不同的nodejs进行随时切换。$nvmls-remote......
  • 大数据学习之Flink(二)
    Flink运行架构Flink的运行时架构中,最重要的就是两大组件:作业管理器(JobManger)和任务管理器(TaskManager)。对于一个提交执行的作业,JobManager是真正意义上的“管理者”(Mast......