第3章 flink安装与部署

2.1flink集群部署

stanalone模式是指在裸机上运行flink，通过自身的资源调度器来运行，一般这种方式不推荐，flink集群一般与其它集群，像spark，Hadoop等共存，所以在底层需要有一套资源调度管理系统，不然容易造成资源竞争或者资源浪费。

1）先下载flink的安装文件。

wget xxx/flink-1.14.0-bin-scala_2.12.tgz

2）解压并修改配置文件

tar -zxvf flink-1.14.0-bin-scala_2.12.tgz

cd flink-1.14.0/conf

vim flink-conf.yaml

修改这个参数为本机主机名：jobmanager.rpc.address: hadoop200

3)分发配置文件

修改/conf/slaves文件

hadoop200

hadoop201

hadoop202

分发给其它的机器，xsync flink-1.14.0

3）启动

进入到bin目录

./start-cluster.sh

然后查看启动的进程

在配置文件conf/slaves中，如果配置了多个机器，那么多个机器上就会有TaskManagerRunner进程。我们可以通过localhost:8081web页面来对flink进行管理。

通过web界面我们可以发现，机器中有一个TaskManager，有一个TaskSlots，先不用管他的意思，只是知道有一个TaskManager和一个Slots。

4）提交任务

先通过nc监听7777端口，然后执行下面的命令

./flink run -c flink.StreamWordCount -p 1 gjxy-1.0-SNAPSHOT.jar --host localhost --port 7777

Job has been submitted with JobID 579a07caf488766e6ef29956e56b5d2d

通过nc输入数字，然后在TaskManager中发现有输出。

关于上面中提到的各种概念，将在下一章中进行说明。

2.2flink部署模式

flink为不同场景下提供了不同的部署模式，主要有一下三种：

会话模式
单作业模式
应用模式

主要区别在于：集群的声明周期以及资源的分配方式；以及应用的main方法到底在哪里执行——客户端还是JobManager。

2.1.1会话模式

会话模式其实最符合常规思维。我们需要先启动一个集群，保持一个会话，在这个会话中通过客户端提交作业，如图 3-10 所示。集群启动时所有资源就都已经确定，所以所有提交的作业会竞争集群中的资源。

2.1.2单作业模式

会话模式因为资源共享会导致很多问题，所以为了更好地隔离资源，我们可以考虑为每个提交的作业启动一个集群，这就是所谓的单作业（Per-Job）模式。

2.1.3应用模式

前面提到的两种模式下，应用代码都是在客户端上执行，然后由客户端提交给 JobManager的。但是这种方式客户端需要占用大量网络带宽，去下载依赖和把二进制数据发送给JobManager；加上很多情况下我们提交作业用的是同一个客户端，就会加重客户端所在节点的资源消耗。所以解决办法就是，我们不要客户端了，直接把应用提交到 JobManger 上运行。而这也就代表着，我们需要为每一个提交的应用单独启动一个 JobManager，也就是创建一个集群。这个 JobManager 只为执行这一个应用而存在，执行结束之后 JobManager 也就关闭了，这就是所谓的应用模式。

2.3 Standalone模式(不常用)

独立模式（Standalone）是部署 Flink 最基本也是最简单的方式：所需要的所有 Flink 组件，都只是操作系统上运行的一个 JVM 进程。独立模式是独立运行的，不依赖任何外部的资源管理平台；当然独立也是有代价的：如果资源不足，或者出现故障，没有自动扩展或重分配资源的保证，必须手动处理。所以独立模式一般只用在开发测试或作业非常少的场景下。另外，我们也可以将独立模式的集群放在容器中运行。 Flink 提供了独立模式的容器化部署方式，可以在 Docker 或者 Kubernetes 上进行部署。

2.3.1会话模式部署

可以发现，独立模式的特点是不依赖外部资源管理平台，而会话模式的特点是先启动集群、后提交作业。所以，我们在第 2.1 节用的就是独立模式（Standalone）的会话模式部署。

2.3.2单作业模式部署

在 3.2.2 节中我们提到， Flink 本身无法直接以单作业方式启动集群，一般需要借助一些资源管理平台。所以 Flink 的独立（Standalone）集群并不支持单作业模式部署。

2.3.3应用模式部署

应用模式下不会提前创建集群，所以不能调用 start-cluster.sh 脚本。我们可以使用同样在bin 目录下的 standalone-job.sh 来创建一个 JobManager。

2.3.4高可用

2.4Yarn模式

独立（Standalone）模式由 Flink 自身提供资源，无需其他框架，这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但我们知道， Flink 是大数据计算框架，不是资源调度框架，这并不是它的强项；所以还是应该让专业的框架做专业的事，和其他资源调度框架集成更靠谱。而在目前大数据生态中，国内应用最为广泛的资源管理平台就是 YARN 了。所以接下来我们就将学习，在强大的 YARN 平台上 Flink 是如何集成部署的。

整体来说， YARN 上部署的过程是：客户端把 Flink 应用提交给 Yarn 的 ResourceManager,Yarn 的 ResourceManager 会向 Yarn 的 NodeManager 申请容器。在这些容器上， Flink 会部署JobManager 和 TaskManager 的实例，从而启动集群。 Flink 会根据运行在 JobManger 上的作业所需要的 Slot 数量动态分配 TaskManager 资源。

以Yarn模式部署Flink时，要求Flink是有Hadoop支持的版本，Hadoop环境需要保证版本在2.2以上，并且集群中安装有HDFS服务。

Flink提供了两种在Yarn上运行的模式，分别为Session-Cluster和Per-Job-Cluster模式。

2.4.1环境准备

在Flink1.8.0之前的版本，需要hadoop支持版本的flink，例如：flink-1.7.2-bin-hadoop28-scala_2.12.tgz ；Flink1.8.0之后，需要手动下载jar包上传至flink的lib目录下，例如：flink-shaded-hadoop-2-uber-2.4.1-10.0.jar；Flink1.11.0之后，可以直接通过配置环境变量完成与YARN集群的对接；

2.4.2 会话模式

Session-Cluster模式需要先启动集群，然后再提交作业，接着会向yarn申请一块空间后，资源保持永远不变。所有作业共享Dispacher和ResourceManager。

在yarn中初始化一个Flink集群，开辟指定的资源，以后提交任务都向这里提交。这个Flink集群会常驻在yarn集群中，除非手工停止。

2.4.3单作业模式

一个Job会对应一个集群，每提交一个作业会根据自身的情况，都会单独想yarn申请资源，直到作者执行完成，一个作作业的失败与否并不会影响下一个作业的正常提交和运行。独享Dispacher和ResourceManager，按需接受资源申请。

每次提交都会创建一个新的Flink集群，任务之间互相独立，互不影响，方便管理。任务执行完成之后创建的集群也会消失。

2.4.4应用模式

2.4.5高可用

YARN 模式的高可用和独立模式（Standalone）的高可用原理不一样。
Standalone 模式中, 同时启动多个 JobManager, 一个为“领导者”（leader），其他为“后备”（standby） , 当 leader 挂了, 其他的才会有一个成为 leader。
而 YARN 的高可用是只启动一个 Jobmanager, 当这个 Jobmanager 挂了之后, YARN 会再次启动一个, 所以其实是利用的 YARN 的重试次数来实现的高可用。

Session Cluster

1）启动Hadoop集群

2）启动yarn-session

./yarn-session.sh -n 2 -s 2 -jm 1024 -nm test -d

其中：

-n（--container）：TaskManager的数量

-s（--slots）：每个TaskManager的slot数量，默认一个slot一个core，默认每个TaskManager的slot的个数为1，有时可以多一些TaskManager，做冗余。

-jm：JobManager的内存（单位MB）

-tm：每个TaskManager的内存（单位MB）

-nm：yarn上的appName（现在的yarn上的ui的名字）

-d：后台执行

3）执行任务

./flink run -c com.hanxf.wc.StreamWordCount FlinkTutorial-1.0-jar.jar --host localhost --port 7777

4)去yarn查看任务

5）取消yarn-session

yarn application --kill appcalition_34327498324_838473847

Per Job Cluster

1)启动Hadoop集群

2）不启动yarn-session，直接执行job

./flink run -m yarn-cluster -c com.hanxf.wc.StreamWordCount FlinkTutorial-xxx.jar --host localhost -port 7777

Kubernetes部署

容器化部署目前在大公司中是常用的部署方式，在容器中部署有两种常见的方式：一种是通过k8s进行调度，另一种是将yarn部署在容器中，通过yarn进行资源调度。通过k8s进行调度比较复杂，需要了解k8s的相关知识，后面有时间在学习k8s时进行补充。第二种方式就是将任务提交到yarn，只是yarn部署的地方在容器中罢了，所以以这种模式进行部署的时候，可以直接将其当做yarn模式来进行操作。

flink1.14.0已经移除对Mesos的支持。

Per Job Cluster

2.5K8S模式

容器化部署是如今业界流行的一项技术，基于 Docker 镜像运行能够让用户更加方便地对应用进行管理和运维。容器管理工具中最为流行的就是 Kubernetes（k8s），而 Flink 也在最近的版本中支持了 k8s 部署模式。基本原理与 YARN 是类似的，具体配置可以参见官网说明，这里我们就不做过多讲解了。

标签：Flink,部署,flink,yarn,集群,模式,安装
From： https://www.cnblogs.com/hanxuefeng/p/16823384.html

2.1flink集群部署

2.2flink部署模式

2.1.1会话模式

2.1.2单作业模式

2.1.3应用模式

2.3 Standalone模式(不常用)

2.3.1会话模式部署

2.3.2单作业模式部署

2.3.3应用模式部署

2.3.4高可用

2.4Yarn模式

2.4.1环境准备

2.4.2 会话模式

2.4.3单作业模式

2.4.4应用模式

2.4.5高可用

Session Cluster

Per Job Cluster

Per Job Cluster

2.5K8S模式

相关文章

赞助商

阅读排行