首页 > 其他分享 >HDFS与MapReduce_tyt2023

HDFS与MapReduce_tyt2023

时间:2023-12-27 09:23:57浏览次数:40  
标签:HDFS 自定义 MapReduce 密码 集群 公网 计费 tyt2023

1.购买弹性公网IP

产品->网络->弹性公网IP EIP

计费模式:按需计费

区域:华北-北京四

线路:全动态BGP

公网带宽:按流量计费

带宽大小:100

IPv6:不开启

弹性公网IP名称:eip-bigdata1

购买量:1

2.购买MRS集群

产品-》大数据=》MapReduce服务

选择“自定义购买”

区域:华北—北京四

计费模式:按需计费

集群名称:mrs-bigdata

版本类型:普通版

集群版本:MRS 3.1.0 WXL

集群类型:自定义

勾选组件:Hadoop/HBase/Hive/Zookeeper/Ranger

可用区:任意均可

虚拟私有云:vpc-bigdata

子网:subnet-bigdata

安全组:sg-bigdata

弹性公网IP:选择下拉框中已购买的ip

常用模板:默认选项

集群节点:

实例规格:全部选择通用计算增强型

8 vCPUs |32 GB | c6.2xlarge.4

系统盘:高IO 480 GB x 1

数据盘:高IO 600 GB x 1

实例数量:Master节点 3台

分析Core节点:2台

无需添加分析Task节点。

开启“拓扑调整”,勾选master(3)的“DN, NM, RS”。此操作表示在Master3节点分别部署DataNode, NodeManager, RegionServer以解决如上警告。

Kerberos认证:保持关闭状态

用户名:admin

密码:自定义密码,例如12QWqw@@

确认密码:再次输入

登录方式:密码

用户名:root

密码:自定义密码,例如12QWqw@@

确认密码:再次输入

如有其他选项:默认或不用填

通信安全授权:确认授权

3.安装jdk环境

集群目前只有jre环境,无法进行打包操作,仍需安装jdk环境才行。运行下列代码下载jdk1.8压缩文件,直接下载到/home/user目录下即可,方便查找。

wget https://sandbox-expriment-files.obs.cn-north-1.myhuaweicloud.com/hccdp/HCCDP/jdk-8u341-linux-x64.tar.gz

下载完成后,运行下列命令进行解压:
tar -zxvf jdk-8u341-linux-x64.tar.gz

4.HDFS实验

HDFS是Hadoop大数据平台中的分布式文件系统,为上层应用或其他大数据组件提供数据存储,因此掌握HDFS的使用对我们更好的理解和掌握大数据大有裨益。本实验是通过JAVA语言来操作HDFS文件系统,主要介绍了HDFS中有关查看路径和文件、新建路径、新建空白文件、创建文件同时写入数据、查看文件内容、删除文件等相关的API,帮助大家更好上手HDFS的大数据开发与应用流程。

创建Eclipse Maven项目

双击打开桌面上的eclipse,点击左上角的File标签,选择 ”New” > ”project” 按钮,新建一个项目。

在下方找到Maven Project,点选之后点击Next

 勾选Create a simple project,点击Next

 

 

 

 

 

 

 

 

 



 

标签:HDFS,自定义,MapReduce,密码,集群,公网,计费,tyt2023
From: https://www.cnblogs.com/playforever/p/17929774.html

相关文章

  • hdfs报错:There are 0 datanode(s) running and 0 node(s) are excluded in this opera
    namenode的日志还是打印Thereare0datanode(s)runningand0node(s)areexcludedinthisoperation.吗 报错信息如下所示。其中,【X】是当前正在运行的DataNode数量,【Y】是被排除在此操作之外的DataNode数量。问题原因该问题表示在当前的集群状态下,因为无法满足文件的......
  • Hadoop集群迁移(元数据及HDFS数据)
    1.背景老集群采用的腾讯emr集群,使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题,因此决定采用自建hadoop集群,需要将emr的元数据和hdfs基础数据迁移过来。EMR版本:3.1.2自建Hadoop版本:3.1.32.集群迁移步骤2.1数据迁移nohuphadoopdistcp-i-phdfs://emrhdf存储地址/......
  • Python hdfs 读取文件报错 Temporary failure in name resolution
    问题背景本人按照菜鸟教程的步骤,在windows系统布置了ubuntu虚拟机环境,并使用centos容器镜像搭建出单节点的hdfs服务。欲使用Pythonhdfsapi测试hdfs服务的功能,遂在ubuntu中编写以下代码准备测试fromhdfsimportClientclient=Client(url='http://172.17.0.3:9870',root=......
  • MapReduce入门案例——wordcount词频统计分析
        说实话,wordcount这个案例挺土的,但是作为入门案例,还是值得学习的,本篇就通过MapReduce来对词频进行一个统计分析,并写出核心代码。一:案例介绍:     Input:读取文本文件;Splitting:将文件按照文件块(block)或者行进行拆分,此时得到的K1为偏移量,V1表示对应行......
  • MapReduce基本介绍
    MapReduce也是Hadoop里的核心内容,非常著名,五星级必须要掌握哦,本篇文章就先抛砖引玉,对MapReduce做一个基本介绍。到底什么是MapReduce     HadoopMapReduce是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到Hadoop集群上用于并行处理大规模的数......
  • HDFS基本介绍
      HDFS作为Hadoop的核心知识,是必须要掌握的,写这篇文章就是总结出HDFS的最核心知识点,那就开始吧!     一:什么是HDFS     HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-c......
  • HDFS命令行操作
    HDFS的命令行操作很多,但是常用的也就那么几个,现在就总结一下吧:HDFS的常用命令:hadoopfs-ls/查看hdfs根目录hadoopfs-put源文件目标地址将本地文件存储到hdfs目标地址hadoopfs-cp源目标拷贝源到目标hadoopfs-copyFromLocalhadoopfs-moveFro......
  • JDK&HDFS安装
    一、环境操作系统:CentOS7.964位JDK版本:8HADOOP版本:3.3.0二、安装包:2.1JDK百度网盘地址及提取码:地址:https://pan.baidu.com/s/1sbgLPROfd9e_valSfv0YAQ 提取码:4qps2.2HADOOP百度网盘地址及提取码:地址:https://pan.baidu.com/s/180Q7Lbyyo6qpwyu1AAFR_Q 提取码:ras4......
  • java: 通过URL读取hadoop HDFS
    packagetju;importorg.apache.hadoop.fs.FsUrlStreamHandlerFactory;importorg.apache.hadoop.io.IOUtils;importjava.io.InputStream;importjava.net.MalformedURLException;importjava.net.URL;importjava.net.URLStreamHandlerFactory;publicclassReadF......
  • hadoop:通过Configuration读取hdfs
    packagetju;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io......