目录
1.用序列{53, 139, 75, 49, 145, 36, 101}构建B树的过程如下:
一、B-树概念
1970 年, R.Bayer 和 E.mccreight 提出了一种适合外查找的树,它是一种平衡的多叉树,称为 B 树 ( 有些地方写的是 B- 树,注意不要误读成"B 减树 ") 。 一棵 M 阶 (M>2) 的 B 树,是一棵平衡的 M 路平衡搜索树,可以是空树 或者满足一下性质: 1. 根节点至少有两个孩子 2. 每个非根节点至少有 M/2-1( 上取整 ) 个关键字 , 至多有 M-1 个关键字,并且以升序排列 例如:当 M=3 的时候,至少有 3/2=1.5 ,向上取整等于 2 , 2-1=1 个关键字,最多是 2 个关键字 3. 每个非根节点至少有 M/2( 上取整 ) 个孩子 , 至多有 M 个孩子 例如:当 M=3 的时候,至少有 3/2=1.5 ,向上取整等于 2 个孩子。最多有 3 个孩子。 4. key[i] 和 key[i+1] 之间的孩子节点的值介于 key[i] 、 key[i+1] 之间 5. 所有的叶子节点都在同一层二、B-树插入分析
为了简单起见,假设 M = 3. 即 三叉树,每个节点中存储两个数据,两个数据可以将区间分割成三个部分,因此节点 应该有三个孩子 ,为了后续实现简单期间,节点的结构如下: 注意:孩子永远比数据多一个。 插入过程当中,有可能需要分裂,分裂的前提是: 假设,当前是要组成一个M路查找树,关键字数必须<=M-1(这里关键字数>M-1就要进行节点拆分) 规则是:把中间的元素,提取出来,放到父亲节点上,左边的单独构成一个节点,右边的单独构成一个节点。1.用序列{53, 139, 75, 49, 145, 36, 101}构建B树的过程如下:
2.插入过程总结
1. 如果树为空,直接插入新节点中,该节点为树的根节点 2. 树非空,找待插入元素在树中的插入位置(注意:找到的插入节点位置一定在叶子节点中) 3. 检测是否找到插入位置(假设树中的key唯一,即该元素已经存在时则不插入) 4. 按照插入排序的思想将该元素插入到找到的节点中 5. 检测该节点是否满足B-树的性质:即该节点中的元素个数是否等于M,如果小于则满足 6. 如果插入后节点不满足B树的性质,需要对该节点进行分裂: (1申请新节点 (2找到该节点的中间位置 (3将该节点中间位置右侧的元素以及其孩子搬移到新节点中 (4将中间位置元素以及新节点往该节点的双亲节点中插入,即继续4 7. 如果向上已经分裂到根节点的位置,插入结束三、B树插入实现
public class MyBTree {
public static final int M=3;//三叉树
static class BTreeNode {
public int[] keys;//关键字
public BTreeNode[] subs;//孩子节点
public BTreeNode parent;//父节点
public int UsedSize;//存储的关键字数量
public BTreeNode() {
//这里多给一个空间是为了分裂实现更容易
keys=new int[M];
subs=new BTreeNode[M+1];
}
}
public BTreeNode root;
/**
* 插入一个元素
* @param val
*/
public boolean insert(int val) {
//B树为空的时候
if(root==null) {
root=new BTreeNode();
root.keys[0]=val;
root.UsedSize=1;
return true;
}
//当B树不为空的时候
Pair<BTreeNode,Integer> pair=Find(val);
if(pair.getVal()!=-1) {
return false;
}
BTreeNode parent=pair.getKey();
int index=parent.UsedSize-1;
for(;index>=0;index--) {
if(parent.keys[index]>=val) {
parent.keys[index+1]=parent.keys[index];
}else {
break;
}
}
parent.keys[index+1]=val;
parent.UsedSize++;
if(parent.UsedSize>=M) {
split(parent);
return true;
}else {
return true;
}
}
/**
* 分裂节点
* @param cur
*/
private void split(BTreeNode cur) {
BTreeNode parent=cur.parent;
BTreeNode newNode=new BTreeNode();
int mid= cur.UsedSize>>1;
int i=mid+1;
int j=0;
while (i<cur.UsedSize) {
newNode.keys[j]=cur.keys[i];
newNode.subs[j]=cur.subs[i];
if(newNode.subs[j]!=null) {
newNode.subs[j].parent=newNode;
}
i++;
j++;
}
newNode.subs[j]=cur.subs[i];
if(newNode.subs[j]!=null) {
newNode.subs[j].parent=newNode;
}
newNode.UsedSize=j;
cur.UsedSize=cur.UsedSize-j-1;
if(cur==root) {
root=new BTreeNode();
root.keys[0]=cur.keys[mid];
root.subs[0]=cur;
root.subs[1]=newNode;
root.UsedSize=1;
cur.parent=root;
newNode.parent=root;
return;
}
newNode.parent=parent;
int endT=parent.UsedSize-1;
for (;endT>=0;endT--) {
if(parent.keys[endT]>=cur.keys[mid]) {
parent.keys[endT+1]=parent.keys[endT];
parent.subs[endT+2]=parent.subs[endT+1];
}else {
break;
}
}
parent.keys[endT+1]=cur.keys[mid];
//将当前父亲节点的孩子节点更改为newNode
parent.subs[endT+2]=newNode;
parent.UsedSize++;
if(parent.UsedSize>=M) {
split(parent);
}
}
/**
* 查找B树中是否存在该元素
* @param val
* @return
*/
private Pair<BTreeNode, Integer> Find(int val) {
BTreeNode cur=root;
BTreeNode parent = null;
while (cur!=null) {
int i=0;
while (i<cur.UsedSize) {
if(cur.keys[i]==val) {
return new Pair<>(cur,i);
} else if (cur.keys[i]<val) {
i++;
}else {
break;
}
}
parent=cur;
cur=cur.subs[i];
}
return new Pair<>(parent,-1);
}
/**
* 验证B树,如果输出的是一个有序的结果则证明是B树
* @param root
*/
private void inorder(BTreeNode root){
if(root == null)
return;
for(int i = 0; i < root.UsedSize; ++i){
inorder(root.subs[i]);
System.out.println(root.keys[i]);
}
inorder(root.subs[root.UsedSize]);
}
}
B树验证
public static void main(String[] args) {
MyBTree bTree=new MyBTree();
int[] arrays={75,49,36,53,101,139,145};
for (int i = 0; i < arrays.length; i++) {
bTree.insert(arrays[i]);
}
bTree.inorder(bTree.root);
}
输出结果 :
36
49
53
75
101
139
145
四、B+树
1.B+树概念
B+树是B-树的变形,也是一种多路搜索树: 1. 其定义基本与B-树相同,除了: 2. 非叶子节点的子树指针与关键字个数相同 3. 非叶子节点的子树指针p[i],指向关键字值属于【k[i],k[i+1])的子树 4. 为所有叶子节点增加一个链指针 5. 所有关键字都在叶子节点出现 B+树的搜索与B-树基本相同,区别是B+树只有达到叶子节点才能命中(B-树可以在非叶子节点中命中),其性能也等 价与在关键字全集做一次二分查找。
2.B+树的特性
1. 所有关键字都出现在叶子节点的链表中(稠密索引),且链表中的节点都是有序的。
2. 不可能在非叶子节点中命中。
3. 非叶子节点相当于是叶子节点的索引(稀疏索引),叶子节点相当于是存储数据的数据层。 4. 更适合文件索引系统