1. 模式识别系统的各个设计环节
-
模式采集:借助物理设备(传感器、摄像头)进行数据的采集和存储。
-
预处理:数据清洗、降噪,增强数据中有用的信息。
-
特征提取:提取数据中对识别有用的特征。
-
分类器学习:根据训练数据特点,选择何时的分类器模型,利用训练集学习得到参数。
2. 模式识别相关概念
-
目标:寻找一种区分不同类的模式的“方法”,称为“分类方法”。给定一个新的模式,利用找到的分类方法将其分配给最接近的模式类。
-
思想:从过去的经验中学习。
-
训练集:搜集历史数据,用于观察数据中的规律。
-
特征提取:找出一种新的数据表示方法,使得规律易被发现。
-
分类器学习:学习规律的过程。
-
分类器:从训练集中学习到的规律的体现。
-
测试集:评估学习的规律而搜集的数据(通常和训练集不重合)。
-
预测:将规律应用到新模式上,得到预测结果。
3. 欠拟合、过拟合、泛化能力
欠拟合:模型复杂度过低或者训练数据特征过少,模型在训练集上就表现很差,不能对训练集中的实例进行正确分类,导致分类器泛化能力降低。
过拟合:模型复杂度过高,导致学习到了一些无用的特征,模型在训练集上的表现很好,但由于过分追求降低训练误差,导致分类器泛化能力降低。
泛化能力:训练好的分类器对 不在训练集中的新实例 正确分类的能力。
PS:泛化能力一般难以直接度量,通常会构建一个测试集,用分类器在测试集上的分类性能近似表示其泛化能力。
-
一个在训练集上取得好性能的分类器 不一定 具有好的泛化能力
-
一个在训练集上表现比较差的分类器 不可能 具有好的泛化能力。
4. 如何提高分类器的泛化性能
-
构建更好的训练数据集(数量多、多样性、无噪声、类别分布均衡)。
-
提高/降低模型的复杂度。