大数据之Hadoop（入门）

时间：2024-04-18 22:45:35浏览次数：29

标签：入门数据库 MapReduce 模式 Hadoop 数据分布式

大数据概论

大数据部门业务流程分析

大数据部门组织结构

Hadoop 生态框架

Hadoop 是什么

Hadoop官网

官网地址：http://hadoop.apache.org/releases.html

下载地址：https://archive.apache.org/dist/hadoop/common/

Hadoop 优势

Hadoop 组成

HDFS架构概述

YARN架构概述

MapReduce架构概述

大数据技术生态体系

图中涉及的技术名词解释如下：
1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
2）Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统，有如下特性：
（1）通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
（2）高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。
（3）支持通过Kafka服务器和消费机集群来分区消息。
（4）支持Hadoop并行数据加载。
4）Storm：Storm用于“连续计算”，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。
5）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
6）Oozie：Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统。
7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
10）R语言：R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。
11）Mahout：Apache Mahout是个可扩展的机器学习和数据挖掘库。
12）ZooKeeper：Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Hadoop运行环境搭建

虚拟机环境准备

安装JDK

安装Hadoop

Hadoop目录结构

Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地运行模式

官方Grep案例

官方WordCount案例

伪分布式模式

（1）.配置集群
（a）配置hadoop-env.sh

启动HDFS并运行MapReduce程序

启动YARN并运行MapReduce程序

配置历史服务器

配置日志的聚集

配置文件说明

完全分布式模式

标签：入门,数据库,MapReduce,模式,Hadoop,数据,分布式
From： https://www.cnblogs.com/gzshd/p/18144698

Python数据分析 Series 笔记
002，pandas介绍 003，Series创建导入Pandas Series是一种类似于一维数组的对象，由下面两个部分组成：values：一组数据（ndarray类型）index：相关的数据索引标签（3.1）Series的创建两种创建方式：（1）由列表或Numpy数组创建默认索引为0到N-1的整数型索引 index和val......
数据结构基础第2讲
数据结构基础第2讲线性表\(\bigstar\bigstar\bigstar\bigstar\bigstar\)本讲知识结构考点一：基本定义和逻辑线性表具有相同特性的数据元素的有限序列考点二：线性表的还是顺序结构\(\bigstar\bigstar\bigstar\bigstar\)存储要点：将线性表中的元素从前往后依次存入一个......
JDBC数据库汇总Attack研究
前言针对除Mysql的其它数据库的jdbcattack分析H2RCE介绍H2是一个用Java开发的嵌入式数据库，它本身只是一个类库，即只有一个jar文件，可以直接嵌入到应用项目中。H2主要有如下三个用途：第一个用途，也是最常使用的用途就在于可以同应用程序打包在一起发布，这样可以非常方便地......
【Azure 环境】在Azure中为数据启用强制保留期 mandatoryRetentionPeriodEnabled
问题描述mandatoryRetentionPeriodEnabled 是Azure数据库的一个设置，用于启用或禁用强制保留期。这是一种数据保护措施，确保在指定的保留期内，数据不能被删除或修改。这个设置是为了满足某些行业或应用场景下的合规性需求，比如金融、医疗、政府等场景中，可能需要保留一段时间的数据......
TapData 正式上线 MongoDB 生态合作伙伴专栏，提供更专业的企业级实时数据集成解决方案
近日，MongoDB官方正式将TapData加入MongoDB生态合作伙伴名录专栏，该项目旨在帮助用户发现MongoDB合作伙伴提供的优质集成和解决方案，本次入选的100+名单便筛选自数千家合作企业。此次合作达成，标志着TapData在现代应用数据集成领域的产品能力和稳定性已获得行业的广泛认可......
7-03. 实现数据存储和加载的逻辑
给NPC增加GUIDNPC_Girl02和NPC_Girl01也同样增加DataGUID修改NPCMovement创建DataSlot修改SaveLoadManagerpersistentDataPath对应的文件路径暂时先不写UI，用键盘来进行交互修改TransitionManager卸载UI场景修改TransitionManager......
Jmeter如何判断请求的数据是Json还是表单格式
就我个人而言，最简单的是使用curl命令执行下就知道了，比如我自己写的图书管理系统，flask框架图书管理系统服务器端-加个小鸡腿-博客园(cnblogs.com) ，python命令启动后是这样的其中查询所有图书的接口是127.0.0.1:5000/books，我们打开浏览器输入这条url显示的数据是json格式......
数据治理
数据治理对于企业来说至关重要。它可以帮助企业清晰地了解自己的数据资源、数据流和数据质量。通过有效的数据治理，企业能够更好地管理和控制数据，最大化数据的价值，并在决策过程中减少错误和风险。数据治理的步骤及原则数据收集和整合数据治理的第一步是收集和整合数据......
MATLAB偏最小二乘回归（PLSR）和主成分回归（PCR）分析光谱数据
全文链接：http://tecdat.cn/?p=2655最近我们被客户要求撰写关于偏最小二乘回归（PLSR）和主成分回归（PCR）的研究报告，包括一些图形和统计输出。此示例显示如何在matlab中应用偏最小二乘回归（PLSR）和主成分回归（PCR），并讨论这两种方法的有效性当存在大量预测变量时，PLSR和PCR都是对因变量建模......
【专题】2024新能源及储能参与电力市场交易白皮书报告合集PDF分享（附原数据表）
原文链接：https://tecdat.cn/?p=35958原文出处：拓端数据部落公众号2019至2023年，我国新能源市场化交易电量持续增长，2023年更是达到6,845亿千瓦时，占新能源发电总量的47.3%。同年，国家电网公司绿电结算电量跃升至576亿千瓦时，绿证交易也激增15倍，达到2,364万张。阅读原文，获取专题报告合......