首页 > 其他分享 >HADOOP集群、hive、derby安装部署详细说明

HADOOP集群、hive、derby安装部署详细说明

时间:2023-09-21 10:04:57浏览次数:43  
标签:opt pub HADOOP analyzer rsa hive derby HOME hadoop


一、创建用户
groupadd analyzer -f
useradd analyzer -d /opt/analyzer -g analyzer -p searchanalyzer


二、处理/etc/hosts文件


三、设置免密码登录(多台机器的id_rsa.pub,相互拷贝)
生成公钥、密钥:
ssh-keygen -t rsa
复制本地id_rsa.pub到远程服务器,使远程服务器登录本地可以免密码
scp 
scp [email protected]:/opt/analyzer/.ssh/id_rsa.pub id_rsa_pub_dir/id_rsa_xxx.pub
生成authorized_keys文件内容:
cat id_rsa_179.pub id_rsa.pub >authorized_keys 
设置权限,权限问题可能导致远程免密码登录失败
chmod 644 authorized_keys


-rw-r--r-- 1 analyzer analyzer  397 May 12 16:53 authorized_keys


四、设置环境变量
[analyzer@linux434 ~]$ vi ~/.bash_profile


PATH=$PATH:$HOME/bin


export PATH
unset USERNAME


export JAVA_HOME=$HOME/jdk1.6.0_18
export PATH=$JAVA_HOME/bin:$PATH


export HADOOP_HOME=$HOME/hadoop
export HIVE_HOME=$HOME/hive


[analyzer@linux434 ~]$ source ~/.bash_profile


五、安装hadoop,hive
scp -r /opt/analyzer/hadoop [email protected]:/opt/analyzer/hadoopscp -r /opt/analyzer/hive [email protected]:/opt/analyzer/hive
scp -r /opt/analyzer/db-derby-10.6.1.0-bin [email protected]:/opt/analyzer/db-derby-10.6.1.0-bin
scp -r /opt/analyzer/jdk1.6.0_18 [email protected]:/opt/analyzer/jdk1.6.0_18


六、 在新节点上启动datanode和tasktracker


/opt/analyzer/hadoop/bin/hadoop-daemon.sh start datanode
/opt/analyzer/hadoop/bin/hadoop-daemon.sh start tasktracker


七、进行block块的均衡


在hdfs-site.xml中增加设置balance的带宽,默认只有1M:


<property> 
    <name>dfs.balance.bandwidthPerSec</name> 
    <value>10485760</value> 
    <description>
        Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second.
    </description> 
</property>

运行以下命令:


/opt/sohuhadoop/hadoop/bin/start-balancer.sh -threshold 5


均衡10个节点,移动400G数据,大概花费了3个小时


The cluster is balanced. Exiting…
Balancing took 2.9950980555555557 hours

标签:opt,pub,HADOOP,analyzer,rsa,hive,derby,HOME,hadoop
From: https://blog.51cto.com/u_16255870/7548678

相关文章

  • 利用sqoop将hive数据导入导出数据到mysql
    运行环境 centos5.6  hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-......
  • hadoop hdfs的一些用法
    Example3-1.DisplayingfilesfromaHadoopfilesystemonstandardoutputusingaURLStreamHandlerJava代码//ReadingDatafromaHadoopURLpublicclassURLCat{ static{ URL.setURLStreamHandlerFactory(newFsUrlStreamHandlerFactory()); } p......
  • hadoop,hbase,hive安装全记录
    操作系统:CentOS5.5Hadoop:hadoop-0.20.203.0jdk1.7.0_01namenode主机名:master,namenode的IP:10.10.102.15datanode主机名:slave1,datanode的IP:10.10.106.8datanode主机名:slave2,datanode的IP:10.10.106.9一、hadoop安装1、建立用户useraddhadooppasswdhadoop2.安装JDK*先查......
  • hadoop权威指南
    Hadoop权威指南第1部分Hadoop基础知识第2章关于MapReduceMapReduce分为两个阶段,map阶段和reduce阶段。map函数是数据准备阶段,它会准备好一个键值对的数据集合,然后交由reduce函数来处理,比如进行排序、分组、聚合等操作。MapReduce处理示例,每年全球记录的最高记录是多少?Map阶......
  • hive导出到mysql以及mysql导入到hive
    hive导出到mysql:/export/server/sqoop-1.4.7.bin__hadoop-2.6.0/bin/sqoopexport--connectjdbc:mysql://10.99.118.207:3306/db_msg--usernameroot--password1003392478--tabletb_rs_sender_phone--export-dir/user/hive/warehouse/db_msg.db/tb_rs_sender_phone--......
  • 关于hive中使用group by报错的问题的解决
    问题描述+问题解决在我在hive数据库中使用groupby的函数时,如果在我们决定显示出来的字段名中有非聚合的字段(即字段名为原生字段名,并没有加什么SUM等聚合函数),那么,我们就必须在groupby后面引用上这个非聚合字段,否则就会报错;同时,在我们写数据到新的数据表中时,一定要保证我们所......
  • springBoot 启动报错: If you want an embedded database (H2, HSQL or Derby), please
    原因其实这个异常在SpringBoot中是一个比较常见的异常,一般是因为SpringBoot自动配置时,检测到我们添加了MySQL、Oracle、Mybatis等和数据库相关的依赖包,结果我们的配置文件中却没有添加数据库相关的配置,比如:spring:datasource:driver-class-name:com.mysql.jdbc.Driver......
  • hadoop中mapred.tasktracker.map.tasks.maximum的设置
    目前,我们邮件的一部分log已经迁移到Hadoop集群上并由Hive来执行相关的查询hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2也即:每一个tasktracker同时运行的map任务数为2照此默认设置,查询80天某用户的操作日志,耗时5mins,45sec经过测试,发现将mapred.tasktracker.map.ta......
  • Hadoop集群的NameNode的备份
    Hadoop集群中,NameNode节点存储着HDFS上所有文件和目录的元数据信息如果NameNode挂了,也就意味着整个Hadoop集群也就完了所以,NameNode节点的备份很重要,可以从以下2个方面来备份NameNode节点1.在hdfs-site.xml中,配置多个name的dir到不同的磁盘分区上:<property>   <name>dfs.name.......
  • Hadoop集群中增加新节点
    向一个正在运行的Hadoop集群中增加几个新的Nodes1.新节点上部署java/hadoop程序,配置相应的环境变量2.新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys3.新节点上设置host,需要有集群中各节点的host对应4.新节点上建立相关的目录,并修改属主5.master的slaves文件......