大数据技术原理与应用
3次信息化的浪潮
研究问题的四个阶段
大数据技术的层次
大数据的计算模式
PaaS
物联网的概念
云计算、大数据、物联网之间的关系
Hadoop应用现状
选择Hdoop需要考虑的因素
Hadoop的定量评分(满分为5分)
总体评价
Ubuntu的一些基本知识(之所以不用CentOs,是因为其太重了)
Hadoop安装方式
Hadoop是什么
Hadoop的发展历程(了解)
安装Hadoop前的jdk路径
Hadoop使用
3种Shell命令方式
MapReduce两大核心组件
热备份:
HDFS
是 Hadoop Distribution File System的缩写
HDFS实现目标
HDFS的局限性
HDFS的相关概念
1.块
为什么要这样设计:
这样设计的好处:
2.名称节点(NameNode)与数据节点(DataNode)
FsImage:
元数据:
名称节点的具体文件结构:
名称节点与数据节点经常通信、传递信息,所以名称节点知道各个数据节点的信息
开始shell后的操作流程:
文件保存的位置:
HDFS的体系结构:
局限性:
第二名称节点的作用、冷备份:
3.4 HDFS存储原理
3.5.1 HDFS读数据过程
3.5.2 HDFS写数据过程
4.1 HBase简介
是一个稀疏的列式数据库
HBase与关系数据库的联系和区别:
访问接口:
4.2 HBase数据模型
定位一个数据:
4个必须:行键、列组、列限定符、时间戳:
概念示图(可能比较稀疏):
底层存储示意图(基本都是紧凑地存储):
面向行的存储的优势和缺点:
如何选择列式数据库还是行式数据库:
4.3 HBase的实现原理
HBase的功能组件:
库函数;Master服务器;Region服务器
Master服务器的作用:
Region的拆分(拆分速度很快,只是修改链接,并不会修改物理地址;只有合并后的才需要修改物理地址)及大小配置:
补充:同一个Region只是会在一个Region服务器上;每个Region大概能存储10-1000个region
寻址结构:
3层结构及作用:
查找数据时的缓存:
4.4 HBase运行机制
读写数据的过程:
写数据:
HLog的工作原理:
4.5 HBase应用方案
性能优化方法:
HBase怎么检测性能:
Ambari
4.6 HBase安装配置和常用Shell命令
5.1 NoSQL概述
NoSQL特点:
传统的关系数据库性能上的缺陷:
MySQL集群方式的缺陷:
NoSQL兴起的原因:
在web2.0时代,关系数据库没法发挥的特性
5.2 NoSQL与关系数据库的比较
关系数据库的优势:
NoSQL数据库的优势和劣势
5.3.1键值数据库和列族数据库
不同数据库的分类
不同类型数据库的举例
键值数据库
列族数据库
5.3.2文档数据库图数据库以及不同数据库比较分析
文档数据库
图数据库
5.4.1 CAP理论
CAP理论:
CAP理论理论下的几种选择
不同产品在CAP理论理论下的不同设计原则
5.4.2 BASE和最终一致性
BASE:
最终一致性;
回话一致性;单调写一致性
如何实现各种类型的一致性
N/W/R之间的关系
举例:
5.5 从NoSQL到NewSQL数据库
数据库的发展,伴随着大数据的发展
newSQL数据库