大数据学习之Hadoop

时间：2022-11-28 21:57:56浏览次数：32

标签：node2 xxx Hadoop hadoop 学习 node1 序列化数据

Hadoop是一个支持海量数据的分布式存储和分布式计算的平台 包含: HDFS YARN MapReduce 分布式管理系统（HDFS） 主要就是把数据存放在多态服务器上 是MapReduce的基础 文件切分 文件存放在一个磁盘上效率是最低的 读取效率低 文件特别大会超出单击的存储范围 文件磁盘上以字节数组的方式存储 数组可以进行拆分和组装源文件不会受到影响 还可以将切分后的数据按照数组的偏移量拼接到一起 数据存储的原理: 不管文件的大小,所有的文件都是由字节数组构成 如果我们要切分文件,就是将一个字节数组分成多份 我们将切分后的数据拼接到一起,数据还可以继续使用 我们需要根据数据的偏移量将他们重新拼接到一起

前期准备
    准备好三台虚拟机 master node1 node2
    同步时间:
    调整时区:
    检查java环境是否正常:java-version
    修改主机名:vim /etc/hostname
    关闭防火墙:
    配置网络:
    免密登陆
        ssh-keygen -t rsa 三次回车
        ssh-copy-id master
        ssh-copy-id node1
        ssh-copy-id node2
    配置好映射文件:
        vim /etc/hosts
        192.168.100.100:master
        192.168.100.110:node1
        192.168.100.120:node2

搭建Hadoop环境
    1、上传Hadoop安装包到、usr/local/soft/解压
    2、配置系统环境变量
        export HADOOP_HOME=/usr/local/soft/hadoop-2.7.6
        export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin
        加载环境变量使其生效 source /etc/profile
    3、修改hadoop配置文件（可以根据实际的需求来配置自定义文件）
        在/usr/local/soft/hadoop-2.7.6/etc/hadoop目录下存放着与Hadoop相关的配置文件
        1）hadoop-env.sh
            export JAVA_HOME=/usr/local/soft/jdk1.8.0_171
        2）core-site.xml
        3）hdfs-site.xml
        4）mapared-site.xml
        5）yarn-site.xml
        6）slaves

    4、将配置好的hadoop分发到node1 node2节点上
        scp -r hadoop-2.7.6/ node1:`pwd`
        scp -r hadoop-2.7.6/ node2:`pwd`
    5、格式化NameNode
        hdfs namenode -format
    6、启动hadoop集群检查各个节点是否正确
        start-all.sh
        master:namenode ResourceManager secondarynamenode
        node1,node2:datanode nodemanager

Hadoop序列化的问题

序列化
    把内存中的对象转化为字节序列(或者其他传输协议)以便于存储到磁盘(持久化)和网络传输
反序列化
    将收到的字符序列或者是次磁盘的持久化数据 转化为内存中的对象

特点：
    紧凑、快速、可扩展、互操作

自定义bean对象实现序列化接口
    在Hadoop框架内传递一个bean对象 那么该对象就需要实现序列化接口(Writable)
    步骤：
        1、实现Writable接口
        2、反序列化的时候需要调用空参构造函数，所以必须有空参构造方法
            public FlowBean(){
                super();
            }
        3、重写序列化方法
            public void write(DataOutPut out) throw Exception{
                out.writexxx(xxx);
                out.writexxx(xxx);
                out.writexxx(xxx);
            }
        4、重写反序列化方法
         public void readFields(DataInput in) throw Exception{
            xxx=in.readxxx();
            xxx=in.readxxx();
            xxx=in.readxxx();
         }
         注意反序列化的顺序和和序列化顺序要一致
        5、要把结果显示在文件中，需要重写toString方法 可用"\t"分开
        6、如果想要把自定义的bean放入key中传输，则需要实现Comparable接口，因为MapReduce框架中的Shuffle过程要求对key进行排序

标签：node2,xxx,Hadoop,hadoop,学习,node1,序列化,数据
From： https://www.cnblogs.com/lkd0910/p/16933735.html

电子商务企业如何利用数据标签
准确的搜索结果和个性化推荐无疑是现代电子商务的基石。随着全球越来越多的企业迁移到网上，每家这样的公司的目标都很简单——帮助用户快速轻松地找到他们想要的东西，以便在......
PYTHON 用几何布朗运动模型和蒙特卡罗MONTE CARLO随机过程模拟股票价格可视化分析耐克
原文链接：http://tecdat.cn/?p=27099 金融资产/证券已使用多种技术进行建模。该项目的主要目标是使用几何布朗运动模型和蒙特卡罗模拟来模拟股票价格。该模型基于受乘性噪......
matlab使用长短期记忆（LSTM）神经网络对序列数据进行分类|附代码数据
全文下载链接：http://tecdat.cn/?p=19751本示例说明如何使用长短期记忆（LSTM）网络对序列数据进行分类。最近我们被客户要求撰写关于LSTM的研究报告，包括一些图形和统计输出......
MySQL数据库：python操作MySQL
目录python操作MySQL一、pymysql模块二、pymysql补充说明1.获取数据2.增删改查三、注册登录1.注册2.登录python操作MySQL一、pymysql模块importpymysql#连接mysql......
MySQL数据库基础5
今日内容概要多表查询的两种方法小知识点补充可视化软件Navicat多表查询练习题python操作MySQL今日内容详细多表查询的两种方法方式1:连表操作 innerjoin......
MySQl数据库：多表查询方法、MySQL补充方法
目录一、多表查询的思路二、多表查询的两种方法1.方式一：连表查询（1）innerjoin内连接（2）leftjoin（3）rightjoin（4）union2.方式二：子查询（1）例子（2）in与notinany和in运算符的不同之处：三......
python基础(数据库、可视化软件Navicat、python操作MySQL)
多表查询的两种方法数据准备：建表createtabledep(idintprimarykeyauto_increment,namevarchar(20));createtableemp(idintprimarykey......
Java学习八
一.小结1.类是对象的模板。它定义对象的属性，并提供创建对象的构造方法以及对对象进行操作的方法。2.类也是一种数据类型。可以用它声明对象引用变量。对象引用变量中似乎......
如何用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据|附
全文下载链接：http://tecdat.cn/?p=24647线性混合模型假设N个受试者的群体是同质的，并且在群体水平上由独特的曲线Xi(t)β描述。最近我们被客户要求撰写关于线性混合......
R语言分布滞后非线性模型（DLNM）研究发病率，死亡率和空气污染示例|附代码数据
全文下载链接：http://tecdat.cn/?p=21317本文提供了运行分布滞后非线性模型的示例，同时描述了预测变量和结果之间的非线性和滞后效应，这种相互关系被定义为暴露-滞后-反应关......

大数据学习之Hadoop

相关文章

赞助商

阅读排行