大数据:
1.分为2类方向
1.实时方向
2.离线方向
2.3个技术栈:
1.hdoop技术栈
2.spark技术栈
3.flink技术栈
3.hadoop和spark是技能体系
4.生成ssh秘钥命令:
ssh-keygen -t rsa -b 4096
5.每天机器之间建立互信,免密登录
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3
6.创建hadoop用户,设置相关hadoop密码
7.设置hadoop账号之间的免密登录
8.需要安装java环境
1.创建文件夹,用来部署jdk,讲jdk和tomcat都按照部署到:/export/server内
mkdir -p /export/server
2.加压jdk安装文件
tar -zxvf jdk-8u351-linux-x64.tar.gz -c /export/server
3.配置jdk的软连接
ln -s /export/server/jdk1.8.0_351 /export/server/jdk
4.配置JAVA_HOME环境变量,以及讲$JAVA_HOME/bin文件加入PATH环境变量中
vi /etc/profile文件
export JAVA_HOME=/export/server/jdk
export PATH=$JAVA_HOME/bin
5.关闭防火墙
6.关闭selinux
7.时区同步和网络同步
8.
9.公有云配置
1.基础网络配置--->外网防火墙(安全组)
2.创建主机
10.apache hadoop是一款开源的分布式处理技术栈
1.hadoop HDFS:分布式数据存储技术
2.hadoop MapReduce:分布式数据计算技术
3.Hadoop YARN:分部署资源调度技术
2008年以后:
1.Apache HbaseNoSql数据库
2.Apache Kafka 分布式消息队列
3.Apache Spark 分布式内存计算引擎
4.Apache Flume流式数据传输工具
5.Apache Hive 分布式sql平台
6.Apache Flink 流计算平台
特征:
1.体积
2.种类
3.价值
4.速度
5.质量
Hadoop安装:
4个配置文件
5.
6.
7.
不良平台操作实例: hadoop fs -mkdir -p hdfs://NameNode1:8020/tmp/20231225yyp5.txt
不良信息操作实例:修改已存在文件的副本数,默认是3个副本:
hadoop fs -setrep -R 3 hdfs://NameNode1:8020/tmp/20231225yyp12.txt
HDFS文件系统只支持删除和追加文件系统
以4个副本进行上传文件:
hadoop fs -D dfs.replication=4 -put test.txt hdfs://NameNode1:8020/tmp/20231225yyp12.txt
以4个副本进行创建目录
hadoop fs -D dfs.replication=4 -mkdir hdfs://NameNode1:8020/tmp/20231225yyp1234.txt
检查文件的副本数,块数:
hadoop fsck hdfs://NameNode1:8020/tmp/20231225yyp12.txt -files -blocks -locations
MapReduce是"分散->汇总"模式的分布式计算框架
MapReduce提供了2个编程接口:
1.Map:提供分散功能
2.Reduce:提供了聚合功能
yarn的启动:
hadoop的MapReduce进行文件单词统计:
hive两大功能组件:
1.元数据管理
2.sql解析器
大数据的需要通过BI报表来进行展示
BI:Business Intelligence 商业智能
常用的BI软件:
FineBI
SuperSet
PowerBI
TableAu
标签:jdk,hadoop,server,学习,export,Apache,txt,数据 From: https://www.cnblogs.com/miwaiwai/p/17922348.html