了解hadoop

时间：2024-03-10 13:55:05浏览次数：36

标签：map hadoop 了解计算 spark 数据分布式

一：大数据

1：概念

就是巨大的数据，TB，EB，ZB，YB等，就是传统的数据库不能处理，具有海量的数据规模，快速的数据流转（实时性），多样的数据类型（从单一的变成了多种的），价值密度（多数据，并且有效数据多，利润价值大）

2：特征

大量：很多数据，并且一台计算机处理不了的数据

多样：结构化数据，非结构化数据

　　a：结构化数据，就是完整的数据，严格的数据格式和长度规范，如，银行，就是数据库中有的数据类型

　　b：非结构化数据，就是不完整的数据，不规则，如，办公文档，文本，图片等

价值密度：就是在大量的数据中，有用的数据占大多数

高速：就是实时更新快速

3：应用场景（意义）

大量的数据进行研究，建立新的数据思维模型，对未来预测，精准推送

二：hadoop组件

1：概念

开源的分布式计算框架，主要存储和处理大规模的数据

特点：

1）成本低：就是可以部署在廉价的机器上面，不需要很高的硬件配置

2）高效率：分布式，在多个主机上面运行

3）可靠性：主备服务器，有备份的，如果文件丢失，可以恢复

4）扩容能力强：因为是分布式的结构，所以的话增加更多的节点，就可以扩展存储容量

缺点：不能处理小的数据，浪费了

2：组件

主要的就是DFS和MapReduce机制解决了存储和计算的问题，要钱，不开源

生态系统：

HDFS：分布式文件系统，存储管理

yarn：是一个资源管理框架，资源管理和调度的

MapReduce：计算模型

spoop（数据迁移工具）：数据导入和导出的工具，hadoop和传统的数据库进行数据交换

mahout（数据挖掘算法库）：快速的创建管理智能应用程序

hbase：针对结构数据的可伸缩性，高可靠性

zookeeper（分布式协作服务）：分布式应用程序协调服务

flume：日志的收集工具，恢复

3：解决的问题

1：大规模数据存储

可以将数据存储在很多的节点上面

2：高数据处理

同时运行在多个节点上面，效率快一点

3：灵活数据处理和分析

支持多种编程语言。提供了多种数据处理和分析的方式

三：spark组件

1：图片

2：详细介绍

spark sql（即席查询）：，用户通过sql语句来查询数据

spark streaming（实时流处理）：实时数据流计算，就是进行一个数据的实时同步

spark mLlib（机器学习库）：机器学习算法，主要分为回归，聚类，协同过滤等，即席查询所有这些方法都被设计为可以在集群上轻松伸缩的架构。

graphx（图计算）：面向图计算提供的框架与算法库，提出了弹性分布式属性图的概念，并在此基础上实现了图视图与表视图的有机结合与统一

3：特点

快速：就是基于这个内存的计算，不是基于这个磁盘的读写

易用：就是支持使用多个的编程语言，java,python,scala等

运行范围广：spark 可以运行在 local、yarn（资源管理器）、mesos（资源管理框架）、standalone（独立）、kubernetes（容器）等多种平台之上。它可以访问诸如 HDFS, Cassandra, HBase, S3 等多种多样的数据源。

四：mapreduce组件

概念：一个分布式运算程序的编程框架，主要是处理计算的

分为2个阶段，map和reduce阶段，就是先将复杂的任务分解成若干个小任务进行处理，reduce阶段是将mapper阶段得到的结果进行汇总

总结：map现将数据先分reduce后和

1）首先先将计算的数据在client端，生成切片（对数据进行划分），生成的切片个数对应着启动多少个maptask程序进行map阶段的计算

2）多个maptask程序是并行的运行的。互不相干

3）每个maptask中对数据的处理要考虑很多的细节，是否有分区，如何排序，书写磁盘等，

4）多个map task计算完成后，每个map task都会有输出的数据

5）会根据分区的个数决定启动多少个reduce task

五：

标签：map,hadoop,了解,计算,spark,数据,分布式
From： https://www.cnblogs.com/qm77/p/18050421

了解开源可视化表单的主要优势
为什么可视化表单深受大家喜爱？这就需要了解开源可视化表单的优势和特点了。在流程化办公深入人心的今天，提高办公协作效率早已成为大家的发展目标，低代码技术平台、开源可视化表单是提升办公协作效率的得力助手，一起来看看它的优势和特点吧。在办公化发展成熟的今天，传统的表单制作工......
面试-linux shell的了解
面试的时候，有时候会问到你对shell的了解，要你说出你知道的一些SHELL命令。安装：yuminstallxxxyumremovexxxwget xxx 压缩，解压缩tar-zxvf xxx tar-zcvf xxxzip xxx unzipxxx 系统相关：chmod 权限设置chownuseradd添加用户ls 列出列表du......
OpenAI、谷歌、微软、Meta联名签署AI公开信（学习了解）
BuildAIforaBetterFuture为更美好的未来构建人工智能Wecalloneveryonetobuild,broadlydeploy,anduseAItoimprovepeople’slivesandunlockabetterfuture.我们呼吁每个人构建、广泛部署和使用人工智能来改善人们的生活，开启更美好的未来。Thepurposeof......
了解 NVIDIA 的数据中心 GPU 系列
长话短说NVIDIA拥有数十个GPU，可以为不同大小的ML模型提供服务。但了解这些不同卡的性能和成本（更不用说保持名称正确）是一个挑战。每个GPU的名称是一个字母数字标识符，传达有关其架构和规格的信息。本指南可帮助您浏览NVIDIA数据中心GPU系列并将其映射到您的模型服务需......
WSGI介绍：Python 首先了解
1.1什么是WSGI首先介绍几个关于WSGI相关的概念WSGI：全称是WebServerGatewayInterface，WSGI不是服务器，python模块，框架，API或者任何软件，只是一种规范，描述webserver如何与webapplication通信的规范。server和application的规范在PEP3333中有具体描述。要实现WSGI协议，必须同时实......
想做大模型开发前，先来了解一下MoE
为了实现大模型的高效训练和推理，混合专家模型MoE便横空出世。大模型发展即将进入下一阶段但目前仍面临众多难题。为满足与日俱增的实际需求，大模型参数会越来越大，数据集类型越来越多，从而导致训练难度大增，同时也提高了推理成本。为了实现大模型的高效训练和推理，混合专家模型MoE便......
了解JavaScript 调用堆栈
每个javascript执行环境都有一个调用堆栈。该调用堆栈用于跟踪函数调用。堆栈是一种后进先出(LIFO)的简单数据结构。我们可以从堆栈中取出的顶部元素是我们压入堆栈的最后一个元素。对于JavaScript调用堆栈，这些元素是函数引用。由于JavaScript是单线程的，因此只有一个堆......
hadoop安装
初始配置最小化安装的192.168.31.100可以正常上网后安装epel-release“红帽系”的操作系统提供额外的软件包,相当于是一个软件仓库[root@localhost~]#yuminstall-yepel-releasenet-tool：工具包集合，包含ifconfig等命令[root@localhost~]#yuminstall-ynet-tools[......
了解鸿蒙系统的基本概念、特点和应用场景
鸿蒙系统（HarmonyOS）是华为公司开发的一款分布式操作系统，旨在满足全场景智慧生活需求。它采用微内核设计，具备高安全性、高性能和可扩展性等特点。鸿蒙系统的应用场景广泛，可以应用于智能手机、平板电脑、智能穿戴设备、智能家居、智能汽车等多种终端设备。鸿蒙系统的基本概念包括......
了解自组织系统方法
自组织系统方法是一种研究复杂系统内部自组织过程和机制的方法，它强调系统内部各个组成部分之间通过相互作用和协同工作，形成有序结构和功能。这种方法的核心在于理解系统内部自组织的原理和规律，从而揭示系统发展的内在动力和演化机制。自组织系统方法的核心思想是系统的自组织性，即......

了解hadoop

一：大数据

1：概念

2：特征

3：应用场景（意义）

二：hadoop组件

1：概念

2：组件

3：解决的问题

三：spark组件

四：mapreduce组件

相关文章

赞助商

阅读排行