1. 监督学习算法
线性回归(Linear Regression)
- 目的:用于预测一个或多个自变量(X)与因变量(Y)之间的线性关系。
- 应用领域:房价预测、销售预测、温度预测等连续值预测问题。
逻辑回归(Logistic Regression)
- 目的:虽然名为回归,但实际上是用于二分类问题的分类算法。
- 应用领域:垃圾邮件识别、疾病诊断、金融欺诈检测等。
岭回归算法
- 目的:通过引入L2正则化项,减少多重共线性对模型的影响,提高模型的稳定性和泛化能力。
- 应用领域:任何需要线性回归建模的场景,特别是当自变量之间存在高度相关性时,岭回归能够提供比标准线性回归更可靠的预测结果。
- 算法特点:
- 在损失函数中添加了L2正则化项(即所有回归系数的平方和乘以一个正则化系数λ)。
- 通过调整λ的值,可以控制正则化的强度,从而平衡模型的复杂度和拟合度。
- 岭回归的解是唯一的,因为L2正则化项使得目标函数成为严格凸函数。
支持向量机(Support Vector Machine, SVM)
- 目的:通过找到最佳决策边界(超平面)来分类数据。
- 应用领域:文本分类、图像识别、生物信息学等。
决策树(Decision Tree)
- 目的:通过构建树形结构来进行分类或回归。
- 应用领域:信贷审批、医疗诊断、市场细分等。
随机森林(Random Forest)
- 目的:通过构建多个决策树并综合它们的预测结果来提高准确性和稳定性。
- 应用领域:分类、回归、特征选择等。
朴素贝叶斯(Naive Bayes)
- 目的:基于贝叶斯定理和特征条件独立假设的分类算法。
- 应用领域:文本分类、垃圾邮件过滤、情感分析等。
2. 无监督学习算法
K-均值(K-Means)
- 目的:将数据划分为K个簇,使得同一簇内的数据点相似度较高,而不同簇间的数据点相似度较低。
- 应用领域:客户细分、图像分割、异常检测等。
主成分分析(PCA)
- 目的:通过降维技术减少数据集中的特征数量,同时保留最重要的信息。
- 应用领域:图像压缩、数据可视化、特征提取等。