首页 > 其他分享 >hadoop常遗忘点

hadoop常遗忘点

时间:2022-11-03 18:35:01浏览次数:32  
标签:hdfs hadoop usr input spark txt 遗忘

hadoop安装:

sudo tar -zxf ~/下载/hadoop-3.1.3.tar.gz -C /usr/local      # 解压到/usr/local中

cd /usr/local/

sudo mv ./hadoop-3.1.3/ ./hadoop     # 将文件夹名改为hadoop

sudo chown -R hadoop ./hadoop     # 修改文件权限  (若文件夹名hadoop-3.1.3没有进行修改,则修改文件权限应该这样写sudo chown -R hadoop ./hadoop-3.1.3)

伪分布:

在hdfs上创建文件夹:./bin/hdfs dfs -mkdir -p /spark/input  

注解:hdfs的路径须得明确在hadoop的bin下,即下图的根路径是/usr/local/hadoop-3.2.1,因此hdfs的路径为./bin/hdfs;而/spark/input该路径指的是在伪分布里新创的文件夹。

put上传: ./bin/hdfs dfs -put /usr/local/spark/test/1.txt /spark/input

注解:将文件1.txt上传到伪分布中的/spark/input目录中,其中1.txt的路径得写全,且我的1.txt文件里面写的内容是hello world。

查看上传的文件: ./bin/hdfs dfs cat /spark/input/1.txt

 

 

 代码:

rdd = sc.textFile("hdfs://localhost:9000/spark/input/1.txt")    #代码展示主要关于伪分布中的/spark/input/1.txt

 

result = rdd.flatMap(lambda x:x.split(" ")).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)      #map-reduce

result.saveAsTextFile("hdfs://localhost:9000/spark/output/10.txt")     #将map-reduce所形成的结果存放在伪分布的文件/spark/output/10.txt中,其中output及10.txt不用另外创建,只用此代码即可进行显示

print(result.collect())      #将存放在10.txt中的map-reduce结果显示出来

注解:

 

 

 

 

 

 

标签:hdfs,hadoop,usr,input,spark,txt,遗忘
From: https://www.cnblogs.com/peak213/p/16854286.html

相关文章

  • git常用操作 做下笔记 免得日后遗忘
    个人常用操作:gitclonexxx链接gitbranchxxx新分支名gitcheckoutxxx分支名(上述两步可以合成一步:gitcheckout -bxxx分支名)gitbranch-Dxxx分支名gitadd.......
  • Hadoop学习
    Hadoop介绍 允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件HadoopHDFS(分布式文件存储系统):解决海量数据存储HadoopYARN(......
  • Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中
    一、前言近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面!大数据技术也是有很多:HadoopSparkFlink小编也只知道这些了,由于Hadoop,......
  • Hadoop安装-分布式-Fully
    Hadoop安装-分布式-Fully〇、所需资料一、配置1、基础配置(1)系统安装(2)hostname主机名配置(3)ip地址、dns、hosts映射文件配置(4)关闭防火墙与selinux(5)开启ntpd时钟同步......
  • Hadoop入门(2)——环境准备
    CentOS环境环境要求使用VMware虚拟机搭建基于CentOS7.5的Hadoop环境:cpu核数(需要搭建3台Hadoop组成集群,加上Windows本机,所以可以分配的数量为本机的cpu核数除以4)内存至......
  • 关于安装hadoop时在centos上修改主机名总是不成功
    按照老师给的文件和网上搜的代码改了很多次,比如改/etc/sysconfig/network这些,无论改几次都没用,找了个帖子,说可能是因为CentOS7版本由于与之前版本变化比较大,修改主机名的......
  • Hadoop学习(3)
    HDFS概述:向磁盘中写入数据的时间一般是读取时间的3倍。HDFS以流处理访问模式来存储文件的,一次写入,多次读取。磁盘存储文件时,是按照数据块来进行存储的,数据块是磁盘读......
  • Ubuntu22安装Hadoop完全分布式集群
    Ubuntu22.04安装Hadoop完全分布式集群1.网络配置需要修改四处,windows(宿主机),vmware,和虚拟机ubuntu(NAT模式)windows,设置vmware8的ipv4选项即可vmware的ip设置和windo......
  • hadoop学习(2)
    HadoopYARN直接源于MRv1在几个方面的缺陷,扩展性受限、单点故障、难以支持MR之外的计算。多计算框架各自为战,数据共享困难。MR:离线计算框架,Storm:实时计算框架,Spark内存计......
  • Hadoop HDFS负载均衡
    Hadoop分布式文件系统(HadoopDistributedFileSystem),简称HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS是一个高......