首页 > 其他分享 >Azkaban实战

Azkaban实战

时间:2022-11-11 11:06:26浏览次数:43  
标签:实战 jobs zip Azkaban job atguigu hadoop102 azkaban


Azkaba内置的任务类型支持command、java

1单一job案例

1)创建job描述文件

[atguigu@hadoop102 jobs]$ vim first.job

#first.job

type=command

command=echo 'this is my first job'

2) 将job资源文件打包成zip文件

[atguigu@hadoop102 jobs]$ zip first.zip first.job

  adding: first.job (deflated 15%)

[atguigu@hadoop102 jobs]$ ll

总用量 8

-rw-rw-r--. 1 atguigu atguigu  60 10月 18 17:42 first.job

-rw-rw-r--. 1 atguigu atguigu 219 10月 18 17:43 first.zip

注意:

目前,Azkaban上传的工作流文件只支持xxx.zip文件。zip应包含xxx.job运行作业所需的文件和任何文件(文件名后缀必须以.job结尾,否则无法识别)。作业名称在项目中必须是唯一的。

3)通过azkaban的web管理平台创建project并上传job的zip包

首先创建project

Azkaban实战_java

上传zip包

Azkaban实战_hive_02

4)启动执行该job

Azkaban实战_java_03

点击执行工作流

Azkaban实战_java_04

点击继续

Azkaban实战_java_05

5)Job执行成功

Azkaban实战_hive_06

6)点击查看job日志

Azkaban实战_java_07

2多job工作流案例

1)创建有依赖关系的多个job描述

第一个job:start.job

[atguigu@hadoop102 jobs]$ vim start.job

#start.job

type=command

command=touch /opt/module/kangkang.txt

第二个job:step1.job依赖start.job

[atguigu@hadoop102 jobs]$ vim step1.job

#step1.job

type=command

dependencies=start

command=echo "this is step1 job"

第三个job:step2.job依赖start.job

[atguigu@hadoop102 jobs]$ vim step2.job

#step2.job

type=command

dependencies=start

command=echo "this is step2 job"

第四个job:finish.job依赖step1.job和step2.job

[atguigu@hadoop102 jobs]$ vim finish.job

#finish.job

type=command

dependencies=step1,step2

command=echo "this is finish job"

2)将所有job资源文件打到一个zip包中

[atguigu@hadoop102 jobs]$ zip jobs.zip start.job step1.job step2.job finish.job

updating: start.job (deflated 16%)

  adding: step1.job (deflated 12%)

  adding: step2.job (deflated 12%)

  adding: finish.job (deflated 14%)

3)在azkaban的web管理界面创建工程并上传zip包

Azkaban实战_java_08

5)启动工作流flow

Azkaban实战_hive_09

6)查看结果

Azkaban实战_hadoop_10

思考:

将student.txt文件上传到hdfs,根据所传文件创建外部表,再将表中查询到的结果写入到本地文件

3 java操作任务

使用Azkaban调度java程序

1)编写java程序

import java.io.IOException;

 

public class AzkabanTest {

  public void run() throws IOException {

        // 根据需求编写具体代码

/opt/module/azkaban/output.txt");

      fos.write("this is a java progress".getBytes());

      fos.close();

    }

 

  public static void main(String[] args) throws IOException {

      AzkabanTest azkabanTest = new AzkabanTest();

      azkabanTest.run();

  }

}

2)将java程序打成jar包,创建lib目录,将jar放入lib内

[atguigu@hadoop102 azkaban]$ mkdir lib

[atguigu@hadoop102 azkaban]$ cd lib/

[atguigu@hadoop102 lib]$ ll

总用量 4

-rw-rw-r--. 1 atguigu atguigu 3355 10月 18 20:55 azkaban-0.0.1-SNAPSHOT.jar

3)编写job文件

[atguigu@hadoop102 jobs]$ vim azkabanJava.job

#azkabanJava.job

type=javaprocess

java.class=com.atguigu.azkaban.AzkabanTest

classpath=/opt/module/azkaban/lib/*

4)将job文件打成zip包

[atguigu@hadoop102 jobs]$ zip azkabanJava.zip azkabanJava.job

  adding: azkabanJava.job (deflated 19%)

5)通过azkaban的web管理平台创建project并上传job压缩包,启动执行该job

Azkaban实战_hadoop_11

atguigu@hadoop102 azkaban]$ pwd

/opt/module/azkaban

[atguigu@hadoop102 azkaban]$ ll

总用量 24

drwxrwxr-x.  2 atguigu atguigu 4096 10月 17 17:14 azkaban-2.5.0

drwxrwxr-x. 10 atguigu atguigu 4096 10月 18 17:17 executor

drwxrwxr-x.  2 atguigu atguigu 4096 10月 18 20:35 jobs

drwxrwxr-x.  2 atguigu atguigu 4096 10月 18 20:54 lib

-rw-rw-r--.  1 atguigu atguigu   23 10月 18 20:55 output

drwxrwxr-x.  9 atguigu atguigu 4096 10月 18 17:17 server

[atguigu@hadoop102 azkaban]$ cat output

this is a java progress

4 HDFS操作任务

1)创建job描述文件

[atguigu@hadoop102 jobs]$ vim fs.job

#hdfs job

type=command

command=/opt/module/hadoop-2.7.2/bin/hadoop fs -mkdir /azkaban

2)将job资源文件打包成zip文件

[atguigu@hadoop102 jobs]$ zip fs.zip fs.job

  adding: fs.job (deflated 12%)

3)通过azkaban的web管理平台创建project并上传job压缩包

4)启动执行该job

5)查看结果

Azkaban实战_Azkaban实战_12

Azkaban实战_java_13

5 mapreduce任务

mapreduce任务依然可以使用azkaban进行调度

  1. 创建job描述文件,及mr程序jar包

[atguigu@hadoop102 jobs]$ vim mapreduce.job

#mapreduce job

type=command

command=/opt/module/hadoop-2.7.2/bin/hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /wordcount/input /wordcount/output

  1. 将所有job资源文件打到一个zip包中

[atguigu@hadoop102 jobs]$ zip mapreduce.zip mapreduce.job

  adding: mapreduce.job (deflated 43%)

3)在azkaban的web管理界面创建工程并上传zip包

4)启动job

5)查看结果

Azkaban实战_hadoop_14

Azkaban实战_java_15

6 Hive脚本任务

1)创建job描述文件和hive脚本

(1)Hive脚本:student.sql

[atguigu@hadoop102 jobs]$ vim student.sql

use default;

drop table student;

create table student(id int, name string)

row format delimited fields terminated by '\t';

load data local inpath '/opt/module/datas/student.txt' into table student;

insert overwrite local directory '/opt/module/datas/student'

row format delimited fields terminated by '\t'

select * from student;

(2)Job描述文件:hive.job

[atguigu@hadoop102 jobs]$ vim hive.job

#hive job

type=command

command=/opt/module/hive/bin/hive -f /opt/module/azkaban/jobs/student.sql

  1. 将所有job资源文件打到一个zip包中

[atguigu@hadoop102 jobs]$ zip hive.zip hive.job

  adding: hive.job (deflated 21%)

3)在azkaban的web管理界面创建工程并上传zip包

4)启动job

5)查看结果

[atguigu@hadoop102 student]$ cat /opt/module/datas/student/000000_0

1001    yangyang

1002    huihui

1003    banzhang

1004    pengpeng

Azkaban实战_hadoop_16

标签:实战,jobs,zip,Azkaban,job,atguigu,hadoop102,azkaban
From: https://blog.51cto.com/u_12654321/5843248

相关文章

  • MapReduce实战之辅助排序和二次排序案例
    辅助排序和二次排序案例1)需求有如下订单数据订单id商品id成交金额0000001Pdt_01222.80000001Pdt_0625.80000002Pdt_03522.80000002Pdt_04122.40000002Pdt_05722.40000003Pdt......
  • MapReduce实战之日志清洗案例
    简单解析版1)需求:去除日志中字段长度小于等于11的日志。2)输入数据   数据有点大3)实现代码:(1)编写LogMapperpackagecom.atguigu.mapreduce.weblog;importjava.io.IOExc......
  • MapReduce实战之 MapReduce中多表合并案例
     MapReduce中多表合并案例1)需求:订单数据表t_order:idpidamount1001011100202210030331001   01   11002   02   21003   03   31004   01 ......
  • MapReduce实战之倒排索引案例(多job串联)
    0)需求:有大量的文本(文档、网页),需要建立搜索索引输出数据:a:atguigupingpingatguigussatguigussb:atguigupingpingatguigupingpingpingpingssc:atguigussatguigup......
  • MapReduce实战之压缩/解压缩案例
    1数据流的压缩和解压缩CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩,我们可以使用createOutputStream(OutputStr......
  • Linux vmstat命令实战详解
    vmstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况。这个命令是我查看Linux/Unix......
  • 0:Base API-Java API 实战
    目录​​0.1引言​​​​0.2API的定义和用处​​​​0.3Scanner(普通类)​​​​0.4Number(包装类)​​​​0.5Math(工具类)​​​​0.6Random(父子类)​​​​0.7ThreadLoca......
  • 1:Unit test and main function-Java API 实战
    目录​​1.抛出企业问题,脱离main测试,模块化编程​​​​2.Junit单元测试的含义和用途​​​​3.怎么获取各种Jar包?MavenRepository获取各类各个版本的jar,这就是仓库。......
  • 4:File-Java API 实战
    目录​​1.引言​​​​2.绝对路径和相对路径?先学送快递吧!​​​​3.绝对路径​​​​4.相对路径​​​​5.File类​​​​6.Linux上的绝对路径有所不同​​1.引言文......
  • 基于Koa2框架的项目搭建及实战开发
    基于Koa2框架的项目搭建及实战开发Koa是基于Node.js平台的下一代web开发框架,由express原班人马打造,致力于成为一个更小、更富有表现力、更健壮的Web框架。使用k......