首页 > 其他分享 >决策树节点分裂:探索不同的标准与方法

决策树节点分裂:探索不同的标准与方法

时间:2024-07-29 20:54:27浏览次数:18  
标签:node self 节点 分裂 num samples class 决策树

决策树节点分裂:探索不同的标准与方法

决策树是一种广泛用于分类和回归任务的机器学习算法。其核心思想是通过一系列简单的规则(即节点分裂)将数据集划分为不同的子集,直到满足某种停止条件为止。在节点分裂过程中,选择最优的分裂标准和方法是构建高效决策树的关键。本文将详细介绍决策树节点分裂的不同标准与方法,具体到源码示例,帮助您深入理解和应用这些技术。

一、决策树的基本概念

决策树是一种树形结构,其中每个内部节点表示一个特征(属性)上的测试,每个分支表示测试结果的一个值,每个叶节点表示一个类别或数值(决策结果)。决策树的构建过程通常包括以下几个步骤:

  1. 选择最优分裂特征和分裂点:在每个节点选择一个最优的特征及其相应的分裂点,以最大化子集的纯度。
  2. 递归地构建子树:对每个子集递归地应用上述步骤,直到满足停止条件(如最大树深、最小样本数等)。

二、常见的节点分裂标准

在决策树中,节点分裂标准是衡量分裂后子集纯度的指标。常见的节点分裂标准包括:

  1. 信息增益(Information Gain):衡量通过分裂某个特征能够减少多少不确定性。基于熵(Entropy)的概念。
  2. 信息增益比(Information Gain Ratio):对信息增益进行归一化处理,以避免偏向多值特征。
  3. 基尼指数(Gini Index):衡量一个样本随机分类到某个类别的概率。
  4. 方差减少(Variance Reduction):主要用于回归树,衡量分裂后目标变量的方差减少量。

1. 信息增益

信息增益是基于熵的概念来衡量特征分裂前后信息的不确定性减少程度。熵的定义如下:

[ H(D) = - \sum_{i=1}^{k} p_i \log_2(p_i) ]

其中,(p_i) 是类别 (i) 的概率。信息增益定义为:

[ IG(D, A) = H(D) - \sum_{v \in V} \frac{|D_v|}{|D|} H(D_v) ]

其中,(D) 是数据集,(A) 是特征,(V) 是特征 (A) 的取值集合,(D_v) 是特征 (A) 取值为 (v) 的子集。

2. 信息增益比

信息增益比对信息增益进行归一化处理,以减少其对多值特征的偏向。定义为:

[ GR(D, A) = \frac{IG(D, A)}{H(A)} ]

其中,(H(A)) 是特征 (A) 的固有值(Intrinsic Value),定义为:

[ H(A) = - \sum_{v \in V} \frac{|D_v|}{|D|} \log_2 \left( \frac{|D_v|}{|D|} \right) ]

3. 基尼指数

基尼指数用于衡量数据集的不纯度,定义为:

[ Gini(D) = 1 - \sum_{i=1}^{k} p_i^2 ]

其中,(p_i) 是类别 (i) 的概率。特征 (A) 的基尼指数定义为:

[ Gini(D, A) = \sum_{v \in V} \frac{|D_v|}{|D|} Gini(D_v) ]

4. 方差减少

方差减少主要用于回归树,用于衡量目标变量的方差减少量,定义为:

[ \Delta Var = Var(D) - \sum_{v \in V} \frac{|D_v|}{|D|} Var(D_v) ]

其中,(Var(D)) 是数据集 (D) 中目标变量的方差。

三、决策树的实现

接下来,我们将通过 Python 代码实现一个简单的决策树算法,探索不同的分裂标准和方法。

1. 数据集准备

首先,我们准备一个示例数据集用于测试。这里使用经典的鸢尾花数据集(Iris Dataset)。

from sklearn.datasets import load_iris
import pandas as pd

# 加载鸢尾花数据集
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

2. 决策树节点类

我们定义一个决策树节点类,用于存储节点信息和实现节点分裂逻辑。

import numpy as np

class DecisionTreeNode:
    def __init__(self, gini=None, num_samples=None, num_samples_per_class=None, predicted_class=None):
        self.gini = gini
        self.num_samples = num_samples
        self.num_samples_per_class = num_samples_per_class
        self.predicted_class = predicted_class
        self.feature_index = 0
        self.threshold = 0
        self.left = None
        self.right = None

    def __str__(self):
        return f"DecisionTreeNode(gini={self.gini}, num_samples={self.num_samples}, num_samples_per_class={self.num_samples_per_class}, predicted_class={self.predicted_class})"

3. 决策树类

接下来,我们定义一个决策树类,包含构建树的逻辑和节点分裂标准的实现。

class DecisionTreeClassifier:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth
        self.tree = None

    def fit(self, X, y):
        self.n_classes_ = len(set(y))
        self.n_features_ = X.shape[1]
        self.tree = self._grow_tree(X, y)

    def predict(self, X):
        return [self._predict(inputs) for inputs in X]

    def _gini(self, y):
        m = len(y)
        return 1.0 - sum((np.sum(y == c) / m) ** 2 for c in np.unique(y))

    def _grow_tree(self, X, y, depth=0):
        num_samples_per_class = [np.sum(y == i) for i in range(self.n_classes_)]
        predicted_class = np.argmax(num_samples_per_class)
        node = DecisionTreeNode(
            gini=self._gini(y),
            num_samples=len(y),
            num_samples_per_class=num_samples_per_class,
            predicted_class=predicted_class,
        )

        if depth < self.max_depth:
            idx, thr = self._best_split(X, y)
            if idx is not None:
                indices_left = X[:, idx] < thr
                X_left, y_left = X[indices_left], y[indices_left]
                X_right, y_right = X[~indices_left], y[~indices_left]
                node.feature_index = idx
                node.threshold = thr
                node.left = self._grow_tree(X_left, y_left, depth + 1)
                node.right = self._grow_tree(X_right, y_right, depth + 1)
        return node

    def _best_split(self, X, y):
        m, n = X.shape
        if m <= 1:
            return None, None

        num_parent = [np.sum(y == c) for c in range(self.n_classes_)]
        best_gini = 1.0 - sum((num / m) ** 2 for num in num_parent)
        best_idx, best_thr = None, None

        for idx in range(n):
            thresholds, classes = zip(*sorted(zip(X[:, idx], y)))
            num_left = [0] * self.n_classes_
            num_right = num_parent.copy()
            for i in range(1, m):
                c = classes[i - 1]
                num_left[c] += 1
                num_right[c] -= 1
                gini_left = 1.0 - sum((num_left[x] / i) ** 2 for x in range(self.n_classes_))
                gini_right = 1.0 - sum((num_right[x] / (m - i)) ** 2 for x in range(self.n_classes_))
                gini = (i * gini_left + (m - i) * gini_right) / m
                if thresholds[i] == thresholds[i - 1]:
                    continue
                if gini < best_gini:
                    best_gini = gini
                    best_idx = idx
                    best_thr = (thresholds[i] + thresholds[i - 1]) / 2

        return best_idx, best_thr

    def _predict(self, inputs):
        node = self.tree
        while node.left:
            if inputs[node.feature_index] < node.threshold:
                node = node.left
            else:
                node = node.right
        return node.predicted_class

4

. 测试决策树

我们使用鸢尾花数据集来测试我们实现的决策树。

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 划分训练集和测试集
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 训练决策树
tree = DecisionTreeClassifier(max_depth=3)
tree.fit(X_train, y_train)

# 预测并评估
y_pred = tree.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

5. 可视化决策树

为了更直观地展示决策树的结构,我们可以使用图形化工具来可视化决策树。这里使用 graphviz 库。

import graphviz

def export_graphviz(tree, feature_names):
    dot_data = []
    def recurse(node, depth):
        indent = "  " * depth
        if node.left:
            dot_data.append(f"{indent}{feature_names[node.feature_index]} < {node.threshold:.2f}")
            recurse(node.left, depth + 1)
            dot_data.append(f"{indent}else {feature_names[node.feature_index]} >= {node.threshold:.2f}")
            recurse(node.right, depth + 1)
        else:
            dot_data.append(f"{indent}class = {node.predicted_class}")

    recurse(tree.tree, 0)
    return "\n".join(dot_data)

dot_data = export_graphviz(tree, iris.feature_names)
print(dot_data)

四、总结

在本文中,我们详细探讨了决策树节点分裂的不同标准与方法,包括信息增益、信息增益比、基尼指数和方差减少,并通过具体的代码示例展示了如何实现和应用这些标准。希望这些内容能帮助您更好地理解和使用决策树算法,为您的数据分析和机器学习任务提供支持。

如果您有任何问题或需要进一步的帮助,请随时与我联系。

标签:node,self,节点,分裂,num,samples,class,决策树
From: https://blog.csdn.net/2401_85639015/article/details/140780977

相关文章

  • ComfyUI插件:ComfyUI Impact 节点(三)
    前言:学习ComfyUI是一场持久战,而ComfyUIImpact是一个庞大的模块节点库,内置许多非常实用且强大的功能节点,例如检测器、细节强化器、预览桥、通配符、Hook、图片发送器、图片接收器等等。通过这些节点的组合运用,我们可以实现的工作有很多,例如自动人脸检测和优化修复、区域增强、......
  • 有向图求每个节点到可到达图中所有节点的个数
    1.初始化:为每个节点初始化一个计数器,记录从该节点出发可以到达的节点数量。2.深度优先搜索(DFS):从每个未访问的节点开始,进行深度优先搜索。在搜索过程中,标记访问过的节点,并更新计数器。或广度优先搜索(BFS):或者使用广度优先搜索,从每个未访问的节点开始,逐层扩展,标记访问过的节点,并更新......
  • 决策树分类算法(if-else原理)
    决策树算法在“决策”领域有着广泛的应用,比如个人决策、公司管理决策等。其实更准确的来讲,决策树算法算是一类算法,这类算法逻辑模型以“树形结构”呈现,因此它比较容易理解,并不是很复杂,我们可以清楚的掌握分类过程中的每一个细节。if-else原理想要认识“决策树算法”我们不妨......
  • ComfyUI插件:ComfyUI Impact 节点(二)
    前言:学习ComfyUI是一场持久战,而ComfyUIImpact是一个庞大的模块节点库,内置许多非常实用且强大的功能节点,例如检测器、细节强化器、预览桥、通配符、Hook、图片发送器、图片接收器等等。通过这些节点的组合运用,我们可以实现的工作有很多,例如自动人脸检测和优化修复、区域增强、......
  • LeetCode222.完全二叉树的节点个数
    题目链接:https://leetcode.cn/problems/count-complete-tree-nodes/description/题目叙述给你一棵完全二叉树的根节点root,求出该树的节点个数。完全二叉树的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该......
  • 如何强制某些节点在networkX中具有特定颜色
    我想要为networkx图的节点着色,但我也希望能够强制一组节点为特定颜色,同时仍然能够正确地为图中的所有节点着色。有谁知道如何做到这一点?可以通过将color属性传递给nx.draw函数,以将特定节点强制为特定颜色,同时仍然能够正确地为图形中的所有节点着色。......
  • 决策树算法详解:原理、实现与应用案例
    目录一:简介二:决策树算法原理决策树的基本概念信息增益和熵基尼指数卡方检验三:决策树的构建过程数据预处理决策树生成算法剪枝技术决策树的优缺点四:决策树算法的实现使用Python实现决策树使用R语言实现决策树实现过程中需要注意的问题五:决策树算法的优化与改进......
  • ComfyUI插件:ComfyUI Impact 节点(一)
    前言:学习ComfyUI是一场持久战,而ComfyUIImpact是一个庞大的模块节点库,内置许多非常实用且强大的功能节点,例如检测器、细节强化器、预览桥、通配符、Hook、图片发送器、图片接收器等等。通过这些节点的组合运用,我们可以实现的工作有很多,例如自动人脸检测和优化修复、区域增强、......
  • ComfyUI插件:ComfyUI Impact 节点(一)
    前言:学习ComfyUI是一场持久战,而ComfyUIImpact是一个庞大的模块节点库,内置许多非常实用且强大的功能节点,例如检测器、细节强化器、预览桥、通配符、Hook、图片发送器、图片接收器等等。通过这些节点的组合运用,我们可以实现的工作有很多,例如自动人脸检测和优化修复、区域增......
  • ComfyUI进阶:Comfyroll节点 (最终篇)+应用实例
    前言:学习ComfyUI是一场持久战,而Comfyroll是一款功能强大的自定义节点集合,专为ComfyUI用户打造,旨在提供更加丰富和专业的图像生成与编辑工具。借助这些节点,用户可以在静态图像的精细调整和动态动画的复杂构建方面进行深入探索。Comfyroll的节点设计简洁易用,功能强大,是每个希望......