HADOOP集群、hive、derby安装部署详细说明

时间：2023-09-21 10:04:57浏览次数：50

标签：opt pub HADOOP analyzer rsa hive derby HOME hadoop

一、创建用户
groupadd analyzer -f
useradd analyzer -d /opt/analyzer -g analyzer -p searchanalyzer

二、处理/etc/hosts文件

三、设置免密码登录（多台机器的id_rsa.pub，相互拷贝）
生成公钥、密钥：
ssh-keygen -t rsa
复制本地id_rsa.pub到远程服务器，使远程服务器登录本地可以免密码
scp
scp analyzer@10.1.4.34:/opt/analyzer/.ssh/id_rsa.pub id_rsa_pub_dir/id_rsa_xxx.pub
生成authorized_keys文件内容：
cat id_rsa_179.pub id_rsa.pub >authorized_keys
设置权限，权限问题可能导致远程免密码登录失败
chmod 644 authorized_keys

-rw-r--r-- 1 analyzer analyzer 397 May 12 16:53 authorized_keys

四、设置环境变量
[analyzer@linux434 ~]$ vi ~/.bash_profile

PATH=$PATH:$HOME/bin

export PATH
unset USERNAME

export JAVA_HOME=$HOME/jdk1.6.0_18
export PATH=$JAVA_HOME/bin:$PATH

export HADOOP_HOME=$HOME/hadoop
export HIVE_HOME=$HOME/hive

[analyzer@linux434 ~]$ source ~/.bash_profile

五、安装hadoop,hive
scp -r /opt/analyzer/hadoop analyzer@10.1.4.34:/opt/analyzer/hadoopscp -r /opt/analyzer/hive analyzer@10.1.4.34:/opt/analyzer/hive
scp -r /opt/analyzer/db-derby-10.6.1.0-bin analyzer@10.1.4.34:/opt/analyzer/db-derby-10.6.1.0-bin
scp -r /opt/analyzer/jdk1.6.0_18 analyzer@10.1.4.34:/opt/analyzer/jdk1.6.0_18

六、在新节点上启动datanode和tasktracker

/opt/analyzer/hadoop/bin/hadoop-daemon.sh start datanode
/opt/analyzer/hadoop/bin/hadoop-daemon.sh start tasktracker

七、进行block块的均衡

在hdfs-site.xml中增加设置balance的带宽，默认只有1M：

<property> 
    <name>dfs.balance.bandwidthPerSec</name> 
    <value>10485760</value> 
    <description>
        Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second.
    </description> 
</property>

运行以下命令：

/opt/sohuhadoop/hadoop/bin/start-balancer.sh -threshold 5

均衡10个节点，移动400G数据，大概花费了3个小时

The cluster is balanced. Exiting…
Balancing took 2.9950980555555557 hours

标签：opt,pub,HADOOP,analyzer,rsa,hive,derby,HOME,hadoop
From： https://blog.51cto.com/u_16255870/7548678

利用sqoop将hive数据导入导出数据到mysql
运行环境 centos5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题：sqoop依赖zookeeper，所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-......
hadoop hdfs的一些用法
Example3-1.DisplayingfilesfromaHadoopfilesystemonstandardoutputusingaURLStreamHandlerJava代码//ReadingDatafromaHadoopURLpublicclassURLCat{ static{ URL.setURLStreamHandlerFactory(newFsUrlStreamHandlerFactory()); } p......
hadoop，hbase，hive安装全记录
操作系统：CentOS5.5Hadoop：hadoop-0.20.203.0jdk1.7.0_01namenode主机名:master，namenode的IP:10.10.102.15datanode主机名:slave1，datanode的IP:10.10.106.8datanode主机名:slave2，datanode的IP:10.10.106.9一、hadoop安装1、建立用户useraddhadooppasswdhadoop2.安装JDK*先查......
hadoop权威指南
Hadoop权威指南第1部分Hadoop基础知识第2章关于MapReduceMapReduce分为两个阶段，map阶段和reduce阶段。map函数是数据准备阶段，它会准备好一个键值对的数据集合，然后交由reduce函数来处理，比如进行排序、分组、聚合等操作。MapReduce处理示例，每年全球记录的最高记录是多少？Map阶......
hive导出到mysql以及mysql导入到hive
hive导出到mysql：/export/server/sqoop-1.4.7.bin__hadoop-2.6.0/bin/sqoopexport--connectjdbc:mysql://10.99.118.207:3306/db_msg--usernameroot--password1003392478--tabletb_rs_sender_phone--export-dir/user/hive/warehouse/db_msg.db/tb_rs_sender_phone--......
关于hive中使用group by报错的问题的解决
问题描述+问题解决在我在hive数据库中使用groupby的函数时，如果在我们决定显示出来的字段名中有非聚合的字段（即字段名为原生字段名，并没有加什么SUM等聚合函数），那么，我们就必须在groupby后面引用上这个非聚合字段，否则就会报错；同时，在我们写数据到新的数据表中时，一定要保证我们所......
springBoot 启动报错： If you want an embedded database (H2, HSQL or Derby), please
原因其实这个异常在SpringBoot中是一个比较常见的异常，一般是因为SpringBoot自动配置时，检测到我们添加了MySQL、Oracle、Mybatis等和数据库相关的依赖包，结果我们的配置文件中却没有添加数据库相关的配置，比如：spring:datasource:driver-class-name:com.mysql.jdbc.Driver......
hadoop中mapred.tasktracker.map.tasks.maximum的设置
目前，我们邮件的一部分log已经迁移到Hadoop集群上并由Hive来执行相关的查询hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2也即：每一个tasktracker同时运行的map任务数为2照此默认设置，查询80天某用户的操作日志，耗时5mins,45sec经过测试，发现将mapred.tasktracker.map.ta......
Hadoop集群的NameNode的备份
Hadoop集群中，NameNode节点存储着HDFS上所有文件和目录的元数据信息如果NameNode挂了，也就意味着整个Hadoop集群也就完了所以，NameNode节点的备份很重要，可以从以下2个方面来备份NameNode节点1.在hdfs-site.xml中，配置多个name的dir到不同的磁盘分区上：<property> <name>dfs.name.......
Hadoop集群中增加新节点
向一个正在运行的Hadoop集群中增加几个新的Nodes1.新节点上部署java/hadoop程序，配置相应的环境变量2.新节点上增加用户，从master上拷贝id_rsa.pub并配置authorized_keys3.新节点上设置host，需要有集群中各节点的host对应4.新节点上建立相关的目录，并修改属主5.master的slaves文件......

HADOOP集群、hive、derby安装部署详细说明

相关文章

赞助商

阅读排行