自学大数据第16天~Pig安装与配置及其他

时间：2023-04-22 17:40:15浏览次数：46

标签：16 配置 Hadoop 模式 Pig HOME 自学 pig

自学大数据第16天~Pig安装与配置及其他_Hadoop

Pig简介:

Apache Pig是一个用于分析大型数据集的平台，它由用于表达数据分析程序的高级语言以及用于评估这些程序的基础架构组成。
Pig程序的显着特性是它们的结构适合大量的并行化，这反过来使它们能够处理非常大的数据集。

基础设施层:

目前，Pig的基础设施层由一个编译器组成，该编译器生成Map-Reduce程序序列，这些程序已经存在大规模的并行实现（例如，Hadoop子项目）。

Pig语言层

Pig的语言层目前由一种名为Pig Latin的文本语言组成，它具有以下优点：

易于编程。

实现简单、“并行”的数据分析任务的并行执行是微不足道的。由多个相互关联的数据转换组成的复杂任务显式编码为数据流序列，使其易于编写、理解和维护。

自动优化执行效率。

任务的编码方式允许系统自动优化其执行，允许用户专注于语义而不是效率。

3 便于扩展。

用户可以创建自己的函数来执行专用处理。

Pig的安装

运行pig时,可以通过将 HADOOP_HOME 设置为指向已安装 Hadoop 的目录来运行不同版本的 Hadoop 如果不设置HADOOP_HOME，默认情况下 Pig 将与嵌入式版本（当前为 Hadoop 2.7.3）一起运行。

下载Pig

下载pig

配置环境变量

先来一套命令.配置环境变量老生常谈了

配置全局的如下:

export PIG_HOME = /home/Hadoop/Pig
export PATH  = PATH:/home/Hadoop/pig/bin
export PIG_CLASSPATH = $HADOOP_HOME/conf

我习惯于配置成用户变量,所以配置了pig.sh文件;

配置完毕后检查pig的配置是否正确;

自学大数据第16天~Pig安装与配置及其他_大数据_02

然后就是 piglatin的编写了:

piglatin

我还不会,那自然得学呀!

pig的执行

local模式
在此模式下，所有文件都从本地主机和本地文件系统安装和运行，不需要Hadoop或HDFS。此模式通常用于测试目的。
MR模式

MapReduce模式是我们使用Apache Pig加载或处理Hadoop文件系统（HDFS）中存在的数据的地方。在这种模式下，每当我们执行Pig Latin语句来处理数据时，会在后端调用一个MapReduce作业，以对HDFS中存在的数据执行特定的操作。

Pig的执行机制

交互模式
使用piglatin语句来操作
批处理模式
编写*.pig文件
嵌入式模式
在编程语言中定义自己的函数,并在脚本中使用他;

我们常用的是使用批处理模式即编写.pig文件

一个.pig脚本文件案例:

student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING
   PigStorage(',') as (id:int,name:chararray,city:chararray);
  
Dump student;

Pig脚本中其他语法

咱先略过这一部分,

标签：16,配置,Hadoop,模式,Pig,HOME,自学,pig
From： https://blog.51cto.com/u_15912968/6215384

日本語を自学
日本語を自学のメッもですLinkですレベル１1挨拶をしようおはようございます初めまして、ｘｘですよろしくお願いします2身近なものを買って見ようxxはどこでうすか場所を知りたいとき使ってこれ、お酒が入っていますかxx円になります文型これそれあれ物......
[NOIP2016 普及组] 海港
题目背景NOIP2016普及组T3题目描述小K是一个海港的海关工作人员，每天都有许多船只到达海港，船上通常有很多来自不同国家的乘客。小K对这些到达海港的船只非常感兴趣，他按照时间记录下了到达海港的每一艘船只情况；对于第$i$艘到达的船，他记录了这艘船到达的时间$t_i$(......
activiti表结构 .pig4cloud
${flag.equals('同意')} ${flag.equals('驳回')} 驳回线 https://paper.pig4cloud.com/#%E5%A4%9A%E7%A7%9F%E6%88%B7%E5%AE%9E%E7%8E%B0 介绍 https://www.devdoc.cn/ activiti表结构https://www.devdoc.cn/activiti-table-summary.html activiti表......
1609. 前序和后序遍历
假设一个二叉树上所有结点的权值都互不相同。我们可以通过后序遍历和中序遍历来确定唯一二叉树。也可以通过前序遍历和中序遍历来确定唯一二叉树。但是，如果只通过前序遍历和后序遍历，则有可能无法确定唯一二叉树。现在，给定一组前序遍历和后序遍历，请你输出对应二叉树的中序遍历......
WCF教程_编程入门自学教程_菜鸟教程-免费教程分享
教程简介Windows通讯开发平台（WindowsCommunicationFoundation，简称WCF）是由微软开发的一系列支持数据通信的应用程序框架，可以翻译为Windows通讯开发平台。整合了原有的windows通讯的.netRemoting，WebService，Socket的机制，并融合有HTTP和FTP的相关技术。是Windows平台上开发分布......
JMeter入门教程(16)——非GUI运行
文章目录1.任务背景2.任务目标3.任务实操1.任务背景JMeter的场景运行方式分为两种，一种是GUI（视窗运行，即我们可以看到的运行界面）方式，另一种是非GUI（命令窗口）方式运行，在Windows中我们可以在命令窗口运行。本篇我们来介绍以下非GUI运行方式：2.任务目标掌握JMeter性能测试工具——非GUI......
【题解】P4069 [SDOI2016]游戏
题目描述Alice和Bob在玩一个游戏。游戏在一棵有$n$个点的树上进行。最初，每个点上都只有一个数字，那个数字是$123456789123456789$。有时，Alice会选择一条从$s$到$t$的路径，在这条路径上的每一个点上都添加一个数字。对于路径上的一个点$r$，若$r$与$s$......
把事情当项目来做(提高做事能力和自学能力)
那就是：把事情当做一个项目来做。一.初步解释：定义及原因1.定义把事情当作一个项目来做，是什么意思？就是在做一件事情的时候，首先要有事前的分析，包括目的性分析，优势劣势分析，可用手段分析，然后再作出完成这个事情的计划；其次，在完成这个事情之时，要按照计划来管理，要有及时的评估与反馈；最......
Ubuntu操作系统纯内网环境搭建ntp时钟同步服务器//京鸿通信/www.kyohoon.com/15507589
一、环境准备服务器：192.168.10.181（Ubuntu操作系统）客户端：192.168.10.82 （Ubuntu操作系统）所有服务器均不能访问互联网二、ntp服务器端操作： (1).现在服务器端安装ntp服务器安装包，首先需要在172.16.20.129服务器上准备好ntp安装包。并进行安装ntp......
android系统adb对时//京鸿通信/www.kyohoon.com/15507589165
目录1、远程连接设备2、设置地区3、设置对时服务器4、重启设备5、查看对时服务器是否设置成功1、远程连接设备adbconnectxxx.xxx.xxx.xxx2、设置地区adbshellsetproppersist.sys.timezoneAsia/Shanghai3、设置对时服务器adbshellsettingsputglobalntp_server172.16.......