大数据学习

大数据学习

时间：2023-12-25 14:12:22浏览次数：27

标签：jdk hadoop server 学习 export Apache txt 数据

大数据:

　　1.分为2类方向

　　　　1.实时方向

　　　　2.离线方向

　　2.3个技术栈:

　　　　1.hdoop技术栈

　　　　2.spark技术栈

　　　　3.flink技术栈

　　3.hadoop和spark是技能体系

　　4.生成ssh秘钥命令:

　　　　ssh-keygen -t rsa -b 4096

　　5.每天机器之间建立互信,免密登录

　　　　ssh-copy-id node1

　　　　ssh-copy-id node2

　　　　ssh-copy-id node3

　　6.创建hadoop用户,设置相关hadoop密码

　　7.设置hadoop账号之间的免密登录

　　8.需要安装java环境

　　　　1.创建文件夹,用来部署jdk,讲jdk和tomcat都按照部署到:/export/server内

　　　　　　mkdir -p /export/server

　　　　2.加压jdk安装文件

　　　　　　tar -zxvf jdk-8u351-linux-x64.tar.gz -c /export/server

　　　　3.配置jdk的软连接

　　　　　　ln -s /export/server/jdk1.8.0_351 /export/server/jdk

　　　　4.配置JAVA_HOME环境变量,以及讲$JAVA_HOME/bin文件加入PATH环境变量中

　　　　　　vi /etc/profile文件

　　　　　　export JAVA_HOME=/export/server/jdk

　　　　　　export PATH=$JAVA_HOME/bin

　　　　5.关闭防火墙

　　　　6.关闭selinux

　　　　7.时区同步和网络同步

　　9.公有云配置

　　　　1.基础网络配置--->外网防火墙(安全组)

　　　　2.创建主机

　　10.apache hadoop是一款开源的分布式处理技术栈

　　　　1.hadoop HDFS:分布式数据存储技术

　　　　2.hadoop MapReduce:分布式数据计算技术

　　　　3.Hadoop YARN:分部署资源调度技术

　　2008年以后:

　　　　1.Apache HbaseNoSql数据库

　　　　2.Apache Kafka 分布式消息队列

　　　　3.Apache Spark 分布式内存计算引擎

　　　　4.Apache Flume流式数据传输工具

　　　　5.Apache Hive 分布式sql平台

　　　　6.Apache Flink 流计算平台

　　特征:

　　　　1.体积

　　　　2.种类

　　　　3.价值

　　　　4.速度

　　　　5.质量

Hadoop安装:

4个配置文件

不良平台操作实例: hadoop fs -mkdir -p hdfs://NameNode1:8020/tmp/20231225yyp5.txt

不良信息操作实例:修改已存在文件的副本数,默认是3个副本:

　　　　hadoop fs -setrep -R 3 hdfs://NameNode1:8020/tmp/20231225yyp12.txt

HDFS文件系统只支持删除和追加文件系统

以4个副本进行上传文件:

　　hadoop fs -D dfs.replication=4 -put test.txt hdfs://NameNode1:8020/tmp/20231225yyp12.txt

以4个副本进行创建目录

　　 hadoop fs -D dfs.replication=4 -mkdir hdfs://NameNode1:8020/tmp/20231225yyp1234.txt

检查文件的副本数,块数:

　　hadoop fsck hdfs://NameNode1:8020/tmp/20231225yyp12.txt -files -blocks -locations

MapReduce是"分散->汇总"模式的分布式计算框架

　　MapReduce提供了2个编程接口:

　　　　1.Map:提供分散功能

　　　　2.Reduce:提供了聚合功能

yarn的启动:

hadoop的MapReduce进行文件单词统计:

hive两大功能组件:

　　1.元数据管理

　　2.sql解析器

大数据的需要通过BI报表来进行展示

BI:Business Intelligence 商业智能

常用的BI软件:

　　FineBI

　　SuperSet

　　PowerBI

　　TableAu

标签：jdk,hadoop,server,学习,export,Apache,txt,数据
From： https://www.cnblogs.com/miwaiwai/p/17922348.html

揭秘抖音视频详情API：电商行业的制胜法宝与实时数据获取的奥秘
一、引言随着社交媒体的普及和电商行业的快速发展，抖音等短视频平台已经成为电商企业获取用户、推广产品和了解市场趋势的重要渠道。获取抖音视频详情API对于电商行业来说具有重要意义，它可以帮助企业实时获取抖音平台上的视频数据，洞察用户需求，优化产品策略，制定精准营销计划，从而提升......
ZHS16GBK字符集下面Oracle数据库varchar与nvarchar的验证
ZHS16GBK字符集下面Oracle数据库varchar与nvarchar的验证背景周末分析了SQLServermysql等数据库想着继续分析一下oracle数据库这边oracle使用的是ZHS16GBK的字符集.所以比较特殊.还是建议得使用UTF-8字符集.能让系统干的活就让系统干,自己干国际化太费劲了.处......
无法获得数据库 'model' 上的排他锁。请稍后重试该操作
标题:MicrosoftSQLServerManagementStudio数据库"XXXX"的创建失败。(Microsoft.SqlServer.Smo)有关帮助信息，请单击:https://go.microsoft.com/fwlink?ProdName=Microsoft+SQL+Server&ProdVer=15.0.18206.0+((SSMS_Rel).191029-2112)&EvtSrc=Microsoft.SqlServer.......
企业财务数据分析
选题背景介绍选择此选题的原因在于，随着信息时代的到来，企业数据挖掘和分析技术的进步为深入了解公司年报提供了关键工具。公司年报作为企业向利益相关者披露财务和经营状况的主要渠道，其信息量庞大而复杂。传统手工分析已无法满足对大规模数据的处理和深入挖掘的需求。通过运用数据......
实时数据获取：抖音API在电商中的应用与影响
在电商行业高速发展的今天，数据已经成为企业决策和创新的重要驱动力。抖音作为全球最大的短视频平台之一，其根据关键词取商品列表API为电商行业带来了前所未有的机遇和挑战。本文将深入探讨该API在电商行业中的关键作用，以及如何实现实时数据获取，为电商企业提供有价值的见解。一、抖音......
通过数据建模及可视化工具建立指标体系
（一）数据分析的几个关键点：1、了解业务；2、了解数据；3、可视化；4、反哺业务（二）指标体系和标准体系指标体系和指标，指标描述点的问题，比如营业收入，年龄、公司员工数，指标体系表示事物整体状态，有结构、有层次，比如公司经营指标体系，比如国民经济指标体系指标体系的作用：描述现状、促进更好发展标准......
STM32采集传感器数据通过冒泡排序取稳定值
STM32采集传感器数据通过冒泡排序取稳定值一、前言在物联网、单片机开发中，经常需要采集各种传感器的数据。比如：温度、湿度、MQ2、MQ3、MQ4等等传感器数据。这些数据采集过程中可能有波动，偶尔不稳定，为了得到稳定的值，我们可以对数据多次采集，进行排序，去掉最大......
达梦数据库varchar和nvarchar的验证
达梦数据库varchar和nvarchar的验证测试SQLcreatetablespacezhaobshdatafile'/opt/dmdbms/data/DAMENG/zhaobsh.dbf'size128#需要注意达梦数据库的大小限制为:#第1行附近出现错误[-2422]:数据文件[/opt/dmdbms/data/DAMENG/zhaobsh.dbf]大小无效，取值范围为(128~671......
数据映射优秀实践：类型、方法和工具的简要指南
在软件应用程序之间映射数据是一个耗时的过程，这需要进行深入的准备，对数据源和目标有较好的理解，并要根据方法进行实际开发。在任何应用程序集成、数据迁移以及一般的数据管理计划中，数据映射都是最关键的步骤之一。甚至可以这么认为：集成项目的成功在很大程度上取决于源数据到目标数......
java读取yaml文件并转化成json格式数据
一、在maven项目中导入依赖<dependency><groupId>org.yaml</groupId><artifactId>snakeyaml</artifactId><version>1.29</version></de......

相关文章

赞助商

阅读排行