estimator

2024-11-1311.13机器学习_KNN和模型选择调优
7特征降维实际数据中,有时候特征很多,会增加计算量,降维就是去掉一些特征,或者转化多个特征为少量个特征特征降维其目的:是减少数据集的维度，同时尽可能保留数据的重要信息。特征降维的好处:减少计算成本：在高维空间中处理数据可能非常耗时且计算密集。降维可以简化模型，
2024-08-23机器学习—KNN算法-分类及模型选择与调优
KNN算法-分类样本距离判断：欧氏距离、曼哈顿距离、明可夫斯基距离KNN算法原理： K-近邻算法（K-NearestNeighbors，简称KNN）,根据K个邻居样本的类别来判断当前样本的类别;如果一个样本在特征空间中的k个最相似(最邻近)样本中的大多数属于某个类别，
2024-08-07机器学习-集成学习
集成学习集成学习1.学习分类2.Adaboost算法3.GBDT算法4.XGBBoost算法集成学习"""概述是机器学习的一种思想,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型称为弱学习器(基学习器)"""1.学习分类"""学习分类 Bagging 随机森林
2024-08-05机器学习-线性回顾
线性回归线性回归1.简介2.线性回归问题求解3.欠拟合与过拟合线性回归1.简介"""简介: 定义: 利用回归方程对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式公式: 见下图分类: 一元线性回归: 目标值与一个因变量有关
2024-07-24机器学习基础
目录机器学习开发流程一、特征工程1.数据获取以鸢尾花为例2.特征抽取字典特征提取文本特征提取普通文本特征提取jieba分词TF-IDF重要程度3.特征编码4.特征预处理归一化标准化5.特征降维二、分类算法KNN算法knn算法实现模型选择与调优案例:facebook签到位置朴素贝叶斯决策树三、回
2024-07-15学习笔记-estimator
基于tensorflow1.15importtensorflowastf#创建一个分类特征列，使用词汇表列表categorical_column=tf.feature_column.categorical_column_with_vocabulary_list(key="your_feature_name",#这应该是你的数据中特征的键名vocabulary_list=["value1","value2
2024-07-05机器学习（bilibili学习）
一、数据集的使用小的数据集一般使用load加载，大的数据集一般使用fenth二、数据集的分割fromsklearn.model_selectionimporttrain_test_split#数据集的分割，x为训练集，y为测试集x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.
2024-06-24机器学习（二）
机器学习3.分类算法3.1sklearn转换器和估计器3.1.1转换器3.1.2估计器(在sklearn实现机器学习算法)3.2K-近邻算法3.2.1什么是K-近邻算法3.2.2K-近邻算法API3.2.3案例：鸢尾花种类预测3.2.4K-近邻总结3.3模型选择与调优3.3.1交叉验证（crossvaildation）3.3.2超参
2024-06-19机器学习day03
机器学习day03超参数选择方法--交叉验证、网格搜索、手写数字识别案例1交叉验证1.1什么是交叉验证？是一种数据集的分割方法，将训练集划分为n份，拿一份做验证集（测试集）、其他n-1份做训练集1.2交叉验证法原理：将数据集划分为cv=4第一次：把第一份数据做验证集，其他数据做训练第
2024-03-23决策树——泰坦尼克号
具体步骤：1、导入相关扩展包fromsklearn.model_selectionimporttrain_test_split#划分数据集fromsklearn.feature_extractionimportDictVectorizer#字典特征值提取fromsklearn.treeimportDecisionTreeClassifier#决策树fromsklearn.treeimportexpor
2024-02-29GridSearch 最佳 estimator 设置问题
GridSearchCV最佳estimator设置问题deftrain_model_Grid(estimator,param_grid,cv,X_train,X_test,y_train,):grid_search=GridSearchCV(estimator,param_grid,cv)grid_search.fit(X_train,y_train)best_classifier=grid_search.best_estimator
2024-02-25【机器学习算法】KNN鸢尾花种类预测案例和特征预处理。全md文档笔记（已分享，附代码）
本系列文章md笔记（已分享）主要讨论机器学习算法相关知识。机器学习算法文章笔记以算法、案例为驱动的学习，伴随浅显易懂的数学知识，让大家掌握机器学习常见算法原理，应用Scikit-learn实现机器学习算法的应用，结合场景解决实际问题。包括K-近邻算法，线性回归，逻辑回归，决策树算法，集成学习，聚
2023-12-19Bias of an estimator
Biasofanestimator Differencebetweenanestimator'sexpectedvaluefromaparameter'struevalueForbroadercoverageofthistopic,seeBias(statistics).Instatistics,thebiasofanestimator(orbiasfunction)ist
2023-12-13随机森林代码实现（奥拓数据分类）
importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltdata=pd.read_csv("./data/train.csv")data.head()importseabornassnssns.countplot(data.target)plt.show()#采用随机欠采样之前需要确定数据的特征值和标签值y=data["target"]x=data
2023-09-16机器学习算法原理实现——adaboost，三个臭皮匠顶个诸葛亮
adaboost算法的基本原理是什么？举一个简单的例子说明呢 AdaBoost（AdaptiveBoosting）是一种集成学习方法，其基本原理是结合多个弱学习器来构建一个强学习器。AdaBoost的工作方式如下：权重初始化：给定一个训练数据集，首先为每个训练样本分配一个权重，开始时这些权
2023-08-19python机器学习经典算法代码示例及思维导图（数学建模必备）
最近几天学习了机器学习经典算法，通过此次学习入门了机器学习，并将经典算法的代码实现并记录下来，方便后续查找与使用。这次记录主要分为两部分：第一部分是机器学习思维导图，以框架的形式描述机器学习开发流程，并附有相关的具体python库，做索引使用；第二部分是相关算法的代码实现（其实就是
2023-07-13ITK 高斯混合模型 GMM EM
1、高斯混合模型sklearn.mixture是一个能够学习高斯混合模型、抽样高斯模型和从数据中估计模型的包。同样，也提供了帮助决定正确组件数量的方法。一个高斯混合模型是一个概率模型，它假设所有的数据点是从有限未知参数的高斯分布的混合生成的。可以将混合模型当作泛化的k均
2023-06-114.3 线性回归的改进-岭回归
1.带有L2正则化的线性回归-岭回归岭回归，其实也是一种线性回归。只不过在算法建立回归方程时候，加上正则化的限制，从而达到解决过拟合的效果2.APIsklearn.linear_model.Ridge(alpha=1.0,fit_intercept=True,solver="auto",normalize=False)具有l2正则化的线性回归alpha:正
2023-06-114.1 线性模型
1回归问题什么是回归问题目标值---连续型的数据应用场景房价预测销售额度预测金融：贷款额度预测、利用线性回归以及系数分析因子2什么是线性回归2.1定义线性回归(Linearregression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关
2023-06-103.3 模型选择和调优(KNN)
1.什么是交叉验证(crossvalidation)交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成5份，其中一份作为验证集。然后经过5次(组)的测试，每次都更换不同的验证集。即得到5组模型的结果，取平均值作为最终结果。又称5折交叉验证。我们之前知道数据分为训练集和测试集，
2023-06-103.1分类算法之sklean转换器和预估器
1.转换器**想一下之前做的特征工程的步骤？1、实例化(实例化的是一个转换器类(Transformer))2、调用fit_transform(对于文档建立分类词频矩阵，不能同时调用)**标准化:(x-mean)/stdfit_transform() fit()计算每一列的平均值 transform()(x-mean)/std进行最终的转换我
2023-04-08Vins-Mono 阅读笔记——estimator
vins_estimator概述基本上VINS里面绝大部分功能都在这个package下面，包括IMU数据的处理(前端)，初始化(我觉得可能属于是前端)，滑动窗口(后端)，非线性优化(后端)，关键帧的选取(部分内容)(前端)。我第一次看的时候，总是抱有一个疑问，就是为什么把这么多内容全都放在这一个node里面。为了
2022-12-18交叉验证与网格搜索
一、概述1.1为什么用网格搜索与交叉验证在机器学习中，有大量的超参数需要指定；如果超参数指定不合适，则会出现过拟合和欠拟合。而指定超参数，一种方法是凭经验；一种方法是穷
2022-10-31KNN算法之集美大学
在本篇文章中，我即将以在集美大学收集到的一些数据集为基础，使用KNN算法进行一系列的操作一、KNN算法首先，什么是KNN算法呢，这得用到老祖宗说的一句话“近朱者赤近墨者
2022-10-02knn 算法以及电影种类预测&莺尾花种类预测
1.简介 K-NearestNeighbor算法又叫KNN算法(最近邻算法，k是选取几个距离其最近的样本作为参考)，这个算法是机器学习里面一个比较经典的分类和回归算法。定义：如果一个样本在