大数据概述
大数据的发展历程
大数据的4V特点
数据量大(volume)
数据类型繁多(variety)
处理速度快(velocity)
价值密度低(value)
大数据对科学研究的影响
4种范式:实验科学、理论科学、计算科学和数据密集型科学
实验科学:在最初的科学研究阶段,人类采用实验来解决一些科学问题
理论科学:实验科学的研究会ԩ到当时实验条件的限制,难以完成对自然现象更准确的理解。随着科学 的进步,人类开始采用数学、几何等理论,构建问题模型和ࠬ找解决方案
计算科学:在实际应用中,计算科学主要用于 对各个科学问题进行计算机模拟和其他形式的计算(一般是先提出可能的 理论,再搜集数据,然后通过计算来验证)
数据密集型科学:先有了大量已知的数据,然后 通过计算得出之前未知的理论。
大数据对思维方式的影响
1.全样而非抽样
2.效率而非准确
3.相关而非因果
大数据的关键技术
大数据的计算模式及其代表产品
大数据、云计算、物联网之间的关系
大数据、云计算和物联网代表了 IT 领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。
Hadoop
hadoop的发展历史
Hadoop 最初是由 Apache Lucene 项目的创始人 Doug Cutting 开发的文本搜索库(2002)
Apache Nutch 项目模仿 GFS 开发了 自己的分布式文件系统(Nutch Distributed File System,NDFS),也就是 HDFS 的前身(2004)
Apache Nutch 中 的 NDFS 和 MapReduce 开始独立出来,成为 Apache Lucene 项目的一个子项目,称为 Hadoop(2006)
Hadoop 正式成为 Apache 顶级项目(2008)
Hadoop 更是把 1 TB 数据排序时间缩短到 62 秒。Hadoop 从此声名大噪,迅速发展成为 大数据时代最具影响力的开源分布式开发平台,并成为事实上的大数据处理标准(2009)
hadoop的特性
高可靠性
高效性
高扩展性
高容错性
成本低
运行在linux操作系统上
支持多种编程语言
hadoop的生态系统
功能组件:ZooKeeper、HBase、Hive、Pig、Mahout、Flume、Sqoop、Ambari
常见的hadoop操作
操作步骤
-
使用 Hadoop 用户登录 Linux 操作系统,启动 Hadoop(Hadoop 的安装目录为 “/usr/local/hadoop”),为 Hadoop 用户在 HDFS 中创建用户目录 “/user/hadoop”。
- 登录到 Linux 系统。
- 切换到 Hadoop 用户:
su - hadoop
- 启动 Hadoop 服务:
sbin/start-dfs.sh
- 创建 HDFS 目录:
hdfs dfs -mkdir /user/hadoop
-
接着在 HDFS 的目录 “/user/hadoop” 下,创建 test 文件夹,并查看文件列表。
- 创建 test 文件夹:
hdfs dfs -mkdir /user/hadoop/test
- 查看文件列表:
hdfs dfs -ls /user/hadoop/test
- 创建 test 文件夹:
-
将 Linux 操作系统本地的 “~/.bashrc” 文件上传到 HDFS 的 test 文件夹中,并查看 test。
- 上传文件:
hdfs dfs -put ~/.bashrc /user/hadoop/test
- 查看文件列表:
hdfs dfs -ls /user/hadoop/test
- 上传文件:
-
将 HDFS test 文件夹复制到 Linux 操作系统本地文件系统的 “/usr/local/hadoop” 目录下。
- 复制文件夹:
hdfs dfs -get /user/hadoop/test /usr/local/hadoop
- 复制文件夹:
HDFS
Hadoop 是针对谷歌GFS的开源实现
谷歌三驾马车对应
GFS (Google File System) 对应的是 HDFS
MapReduce 对应的是 Hadoop MapReduce
Bigtable 对应的是 HBase
分布式文件系统的结构
HDFS要实现的目标
1.兼容廉价的硬件设备
2.流数据读写
3.大数据集
4.简单的文件模型
5.强大的跨平台兼容性
局限性
1.不适合低延迟数据访问
2.无法高效存储大量小文件
3.不支持多用户写入并任意修改文件
HDFS的相关概念
块
HDFS 默认的一个块大小是 64 MB。在 HDFS 中的文件会被拆分成多个块,每个块作为独立的单位进行存储。
块的大小设计上明显大于普通文件系统
Mapreduce中Map任务一次只处理一个块中的数据
好处:
支持大规模文件存储、简化系统设计、适合数据备份
名称节点和数据节点
名称节点负责管理管理分布式文件系统的命名空间(Namespace)
数据节点(DataNode)是分布式文件系统 HDFS 的工作节点,负责数据的存储和读取,会根据客户端或者名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表信息。每个数据节点中的数据会被保存在各自节点的本地 Linux 文件系统中
第二名称节点
为了有效解决 EditLog 逐渐变大带来的问题,HDFS 在设计中采用了第二名称节点(Secondary NameNode)。第二名称节点是 HDFS 架构的一个重要组成部分,具有两个方面的功能:
首先,它 可以完成 EditLog 与 FsImage 的合并操作,减小 EditLog 文件大小,缩短名称节点重启时间;
其次, 它可以作为名称节点的“检查点”,保存名称节点中的元数据信息
HDFS体系结构的局限性
1.命名空间的限制:名称节点是保存在内存中的,因此名称节点能够容纳对象(文件、块) 的个数会受到内存空间大小的限制。
2.性能的瓶颈:整个分布式文件系统的吞吐量受限于单个名称节点的吞吐量
3.隔离问题:由于集群中只有一个名称节点,只有一个命名空间,因此无法对不同应用程序进行隔离
4.集群的可用性:一旦这个唯一的名称节点发生故障,会导致整个集群变得不可用
数据的冗余存储(为什么 优点)
为了保证系统的容错性和可用性,HDFS 采用了多副本方式对数 据进行冗余存储,通常一个数据块的多个副本会被分布到不同的数据节点上
优点:
1.加快数据传输速度
2.容易检查数据错误
3.保证数据的可靠性
数据存取策略
数据存放、数据读取和数据复制
数据的错误与恢复
1. 名称节点出错
名称节点是HDFS的核心组件之一,负责管理文件系统的命名空间和客户端请求。如果名称节点发生故障,将会严重影响整个HDFS集群的可用性。
- 预防措施:通常会设置一个或多个备用名称节点(Secondary NameNode 或 Standby NameNode),以实现高可用性(HA)。在出现主名称节点故障的情况下,可以快速切换到备用节点。
- 恢复方法:一旦主名称节点出现问题,集群将自动或手动切换到备用名称节点。新的名称节点会接管所有任务,并确保HDFS继续正常运行。此外,还需要对故障名称节点进行修复或者替换。
2. 数据节点出错
数据节点是HDFS中真正存储数据的地方。每个文件会被分割成多个数据块,这些数据块被分布存储在不同的数据节点上。
- 预防措施:HDFS默认会对每个数据块进行多副本保存(通常是3个副本),并且这些副本分布在不同的数据节点上。因此,即使某个数据节点失败,只要其他副本完好无损,就不会丢失数据。
- 恢复方法:当检测到某个数据节点失效后,HDFS会从其他拥有相同数据块副本的数据节点复制数据到新的数据节点上来维持设定的副本数量。同时,管理员也可以采取行动修复或替换有问题的数据节点。
3. 数据出错
这里指的是数据本身可能由于硬件问题、网络传输错误等原因导致损坏。
- 预防措施:HDFS使用校验和(Checksum)来验证数据完整性。每当写入新数据时,都会计算并存储对应的校验和值;读取时再重新计算校验和并与之前存储的值对比,以此来检查数据是否完整无误。
- 恢复方法:如果发现某一部分数据损坏,HDFS会尝试从其他副本获取正确的数据版本进行修复。如果是所有副本都损坏,则需要依赖外部备份或其他手段恢复原始数据