第五周周总结

标签：总结 xml rsync 第五 hadoop Hadoop 周周 site 节点

下周接着学习hadoop
一、大数据简介

1. 大数据的定义

⼤数据是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策⼒、洞察发现⼒和流程优化能⼒的海量、⾼增⻓率和多样化的信息资产。

大量
采集、存储和计算的数据量都⾮常⼤。大数据领域数据量基本上以PB为最小单位，而PB级数据量有多⼤？是怎样的⼀个概念？
假如⼿机播放MP3的速度为平均每分钟1MB，⽽1⾸歌曲的平均时⻓为4分钟，那么1PB存量的歌曲可以连续播放2000年。
1PB 也相当于50%的全美学术研究图书馆藏书咨询内容。
基于IDC的报告预测，从2013年到2020年，全球数据量会从4.4ZB猛增到44ZB！⽽到了2025 年，全球会有163ZB的数据量！根据存储单位换算，1ZB = 1024 * 1024PB，所以全球的数据量已经⼤到爆了！⽽传统的关系型数据库根本处理不了如此海量的数据！
高速
在⼤数据时代，数据的创建、存储、分析都要求被⾼速处理，⽐如电商⽹站的个性化推荐尽可能要求实时完成推荐，这也是⼤数据区别于传统数据挖掘的显著特征。
多样
数据形式和来源多样化。包括结构化、半结构化和⾮结构化数据，具体表现为⽹络⽇志、⾳频、视频、图⽚、地理位置信息等等，多类型的数据对数据的处理能⼒提出了更⾼的要求。
真实
确保数据的真实性，才能保证数据分析的正确性
低价值
数据价值密度相对较低，或者说是浪⾥淘沙却⼜弥⾜珍贵。互联⽹发展催⽣了⼤量数据，信息海量，但价值密度较低，如何结合业务逻辑并通过强⼤的机器算法来挖掘数据价值，是⼤数据时代最需要解决的问题，也是⼀个有难度的课题。

3. 大数据的应用场景

随着⼤数据的发展，⼤数据技术已经⼴泛应⽤在众多⾏业，⽐如仓储物流、电商零售、汽⻋、电信、⽣物医学、⼈⼯智能、智慧城市等等领域，包括在疫情防控战中，⼤数据技术也发挥了重要的作⽤。
- 仓储物流
- 电商零售
- 个性推荐
- “双十一购物节”实时销售额大屏
- 汽车无人驾驶领域
- 电信
- 生物医学
- 人工智能
- 智慧城市
  
  1. 什么是Hadoop
  
  Hadoop 是⼀个适合⼤数据的分布式存储和计算平台。
  
  从狭义上讲： Hadoop 就是一个框架平台，它包括以下三部分：
  - HDFS：分布式文件系统
  - Map Reduce：分布式离线计算框架。负责计算
  - Yarn：分布式资源调度框架，负责资源调度
  由此我们可以得出，狭义上的Hadoop解决的是海量数据的存储和离线计算
  
  从广义上讲： Hadoop不仅仅包括狭义上的内容，还包括其他辅助框架，实际上指的是一个大数据生态圈,例如：
  - Flume：日志数据采集
  - Sqoop：关系型数据库数据采集（ETL工具
  - Hive：数据仓库工具
  - Kafka：高吞吐消息中间件
  - HBase：海量列式非关系型数据库
    
    Hadoop的发行版本
    
    ⽬前Hadoop发⾏版⾮常多，在企业中主要⽤到的三个版本分别是：Apache Hadoop版本（最原始的，所有发⾏版均基于这个版本进⾏改进）、Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称“CDH”）、 Hortonworks版本（Hortonworks Data Platform，简称“HDP”）。
    Hadoop的优点
    Hadoop的缺点

标签：总结,xml,rsync,第五,hadoop,Hadoop,周周,site,节点
From： https://www.cnblogs.com/zhuzhurr/p/16635371.html

下周接着学习hadoop
一、大数据简介

1. 大数据的定义

3. 大数据的应用场景

1. 什么是Hadoop

Hadoop的发行版本

安装Hadoop

4.1 HDFS集群配置

4.2 MapReduce集群配置

4.3 Yarn集群配置

4.4 分发配置

4.4.1 rsync 远程同步⼯具

4.4.2 集群分发脚本编写

相关文章

赞助商

阅读排行

第五周周总结

下周接着学习hadoop一、 大数据简介

1. 大数据的定义

3. 大数据的应用场景

1. 什么是Hadoop

Hadoop的发行版本

安装Hadoop

4.1 HDFS集群配置

4.2 MapReduce集群配置

4.3 Yarn集群配置

4.4 分发配置

4.4.1 rsync 远程同步⼯具

4.4.2 集群分发脚本编写

相关文章

赞助商

阅读排行

下周接着学习hadoop
一、大数据简介