首页 > 其他分享 >关于hadoop使用lzo压缩的流程

关于hadoop使用lzo压缩的流程

时间:2022-11-11 23:34:08浏览次数:90  
标签:compression lib 流程 hadoop 64 lzo com


1.为何要使用lzo

看这里,http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

中文的也很多,搜索一下吧


2.安装流程(仅限linux  centos 5.7通过)

为编译hadoop的lzo准备的库

curl -O http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz
tar zxvf lzo-2.06.tar.gz
cd lzo-2.06
./configure --enable-shared
make
make install
#64位
cp /usr/local/lib/liblzo2* /usr/lib64/
#32位
cp /usr/local/lib/liblzo2* /usr/lib/


#64位


cp /usr/local/lib/liblzo2* /usr/lib64/


#32位


cp /usr/local/lib/liblzo2* /usr/lib/


有问题可安装rpm包

wget http://apt.sw.be/redhat/el5/en/x86_64/rpmforge/RPMS/lzo-devel-2.06-1.el5.rf.x86_64.rpm
wget http://apt.sw.be/redhat/el5/en/x86_64/rpmforge/RPMS/lzo-2.06-1.el5.rf.x86_64.rpm

rpm -ivh lzo-2.06-1.el5.rf.x86_64.rpm
rpm -ivh lzo-devel-2.06-1.el5.rf.x86_64.rpm


3.安装 hadoop-lzo 

#来源https://github.com/twitter/hadoop-lzo/
部分网来上提供的是https://github.com/kevinweil/hadoop-lzo,这个是老版本的
wget https://github.com/twitter/hadoop-lzo/archive/master.zip
unzip master
#更新hadoop-lzo中的pom.xml
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<hadoop.current.version>2.2.0</hadoop.current.version>
<hadoop.old.version>1.0.4</hadoop.old.version>
</properties>
export CFLAGS=-m64
export CXXFLAGS=-m64
mvn clean package -Dmaven.test.skip=true
cd target/native/Linux-amd64-64
tar -cBf - -C lib . | tar -xBvf - -C ./
cp ./libgplcompression* /opt/modules/hadoop/lib/native/
cp target/hadoop-lzo-0.4.20-SNAPSHOT.jar /opt/modules/hadoop/share/hadoop/common/
(这一步很重要的,拷贝到<span style="font-family: Arial, Helvetica, sans-serif;">hadoop/lib下,我这里是不能发现该jar的</span>)


4.更新配置

core-site.xml


<property>       



      <name>io.compression.codecs</name>                          <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value>  



  </property>  



  <property>       



    <name>io.compression.codec.lzo.class</name>       



    <value>com.hadoop.compression.lzo.LzoCodec</value>    



  </property> 



</configuration>



mapred-site.xml(可选)


 <property>



        <name>mapred.compress.map.output</name>



        <value>true</value>



  </property>



  <property>       



      <name>mapred.map.output.compression.codec</name>        



      <value>com.hadoop.compression.lzo.LzoCodec</value>     



  </property>  



5.lzo文件的处理,创建索引


hadoop jar /path/to/hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer /lzo_logs



6.mapreduce的变化

一般的jar包,使用的是新接口,用LzoTextInputFormat代替TextInputFormat即可

stream方式的mapreduce增加参数 -inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat 

7.其他,参考源码readme:

​https://github.com/twitter/hadoop-lzo/​


8.本地支持lzo文件

#安装lzop-1.03.tar.gz
tar zxvf lzop-1.03.tar.gz
cd lzop-1.03
./configure
make
make install



标签:compression,lib,流程,hadoop,64,lzo,com
From: https://blog.51cto.com/u_2776699/5845584

相关文章

  • HDMI原理详解以及时序流程(视频是三对差分信号,音频Audio是PCM级(无压缩)传输,包含在数据包
    资料来源:HDMI介绍与流程-TaigaComplex-博客园最近要用ZYNQ开发版的HDMI做显示,看着硬件管脚和例程只能发呆,于是决心去弄清楚HDMI的工作原理,查找了很多资料,都是碎片化的......
  • ASP.Net Core Web 在IIS下的发布流程
    1.新建项目,选择Asp.NETWeb应用程序2.选择Web应用程序(模型视图控制器)3.鼠标右键项目,选择【发布】4.选择【IIS、FTP等】5.发布方法选择【文件......
  • hadoop cdh4 eclipse plugin
    1)downloadeclipse2)解压eclipse3)安装与配置Ant修改/etc/profile文件exportANT_HOME=[path]/apache-ant-1.7.1......
  • hadoop HA----Quorum Journal 设计…
    原文参考这个链接中的附件:https://issues.apache.org/jira/browse/HDFS-30771概述1.1背景1.2当前实现的一些局限自定义硬盘 -NAS设备和远程控制的PDU非常昂贵,也有别......
  • Hadoop YARN 简介:相比于MRv1,YA…
    最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Ha......
  • Kafka工作流程分析
    Kafka工作流程分析1Kafka生产过程分析1.1写入方式producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机......
  • APP接入支付宝支付对接流程
    一、首先在官方接口文档中添加对应的配置,下载地址:https://opendocs.alipay.com/open/54/106370/ 如果是maven项目可以直接在pom文件中添加如下依赖即可:<......
  • RISC-V启动引导流程 spec
    一、RISCV规范定义的三种主要操作模式:(用户模式、管理模式和机器模式(图1-a))1.用户模式:运行用户程序的模式,权限级别最低。不能直接访问I/O或特权指令或内核内存或其他......
  • Spark3.1.2与Iceberg0.12.1整合-hadoop和hive的catalog,DDL,隐藏分区(按年,月,天,小时),create
    Spark3.1.2与Iceberg0.12.1整合Spark可以操作Iceberg数据湖,这里使用的Iceberg的版本为0.12.1,此版本与Spark2.4版本之上兼容。由于在Spark2.4版本中在操作Iceberg时不支持D......
  • 【BIM】BIMFACE基础开发流程
    1.相关概念accesstoken:bimface后端接口访问凭证,通过appkey和appsecret获取,其有效期为一周viewtoken:bimface模型临时访问凭证,其有效期为12小时fileId:单个revit或其他模......