• 2024-08-23机器学习—KNN算法-分类及模型选择与调优
    KNN算法-分类样本距离判断:欧氏距离、曼哈顿距离、明可夫斯基距离KNN算法原理:        K-近邻算法(K-NearestNeighbors,简称KNN),根据K个邻居样本的类别来判断当前样本的类别;如果一个样本在特征空间中的k个最相似(最邻近)样本中的大多数属于某个类别,
  • 2024-08-07机器学习-集成学习
    集成学习集成学习1.学习分类2.Adaboost算法3.GBDT算法4.XGBBoost算法集成学习"""概述 是机器学习的一种思想,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型称为弱学习器(基学习器)"""1.学习分类"""学习分类 Bagging 随机森林
  • 2024-08-05机器学习-线性回顾
    线性回归线性回归1.简介2.线性回归问题求解3.欠拟合与过拟合线性回归1.简介"""简介: 定义: 利用回归方程对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式 公式: 见下图 分类: 一元线性回归: 目标值与一个因变量有关
  • 2024-07-24机器学习基础
    目录机器学习开发流程一、特征工程1.数据获取以鸢尾花为例2.特征抽取字典特征提取文本特征提取普通文本特征提取jieba分词TF-IDF重要程度3.特征编码4.特征预处理归一化标准化5.特征降维二、分类算法KNN算法knn算法实现模型选择与调优案例:facebook签到位置朴素贝叶斯决策树三、回
  • 2024-07-15学习笔记-estimator
    基于tensorflow1.15importtensorflowastf#创建一个分类特征列,使用词汇表列表categorical_column=tf.feature_column.categorical_column_with_vocabulary_list(key="your_feature_name",#这应该是你的数据中特征的键名vocabulary_list=["value1","value2
  • 2024-07-05机器学习(bilibili学习)
    一、数据集的使用小的数据集一般使用load加载,大的数据集一般使用fenth二、数据集的分割fromsklearn.model_selectionimporttrain_test_split#数据集的分割,x为训练集,y为测试集x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.
  • 2024-06-24机器学习(二)
    机器学习3.分类算法3.1sklearn转换器和估计器3.1.1转换器3.1.2估计器(在sklearn实现机器学习算法)3.2K-近邻算法3.2.1什么是K-近邻算法3.2.2K-近邻算法API3.2.3案例:鸢尾花种类预测3.2.4K-近邻总结3.3模型选择与调优3.3.1交叉验证(crossvaildation)3.3.2超参
  • 2024-06-19机器学习day03
    机器学习day03超参数选择方法--交叉验证、网格搜索、手写数字识别案例1交叉验证1.1什么是交叉验证?是一种数据集的分割方法,将训练集划分为n份,拿一份做验证集(测试集)、其他n-1份做训练集1.2交叉验证法原理:将数据集划分为cv=4第一次:把第一份数据做验证集,其他数据做训练第
  • 2024-03-23决策树——泰坦尼克号
    具体步骤:1、导入相关扩展包fromsklearn.model_selectionimporttrain_test_split#划分数据集fromsklearn.feature_extractionimportDictVectorizer#字典特征值提取fromsklearn.treeimportDecisionTreeClassifier#决策树fromsklearn.treeimportexpor
  • 2024-02-29GridSearch 最佳 estimator 设置问题
    GridSearchCV最佳estimator设置问题deftrain_model_Grid(estimator,param_grid,cv,X_train,X_test,y_train,):grid_search=GridSearchCV(estimator,param_grid,cv)grid_search.fit(X_train,y_train)best_classifier=grid_search.best_estimator
  • 2024-02-25【机器学习算法】KNN鸢尾花种类预测案例和特征预处理。全md文档笔记(已分享,附代码)
    本系列文章md笔记(已分享)主要讨论机器学习算法相关知识。机器学习算法文章笔记以算法、案例为驱动的学习,伴随浅显易懂的数学知识,让大家掌握机器学习常见算法原理,应用Scikit-learn实现机器学习算法的应用,结合场景解决实际问题。包括K-近邻算法,线性回归,逻辑回归,决策树算法,集成学习,聚
  • 2023-12-19Bias of an estimator
    Biasofanestimator Differencebetweenanestimator'sexpectedvaluefromaparameter'struevalueForbroadercoverageofthistopic,seeBias(statistics).Instatistics,thebiasofanestimator(orbiasfunction)ist
  • 2023-12-13随机森林代码实现(奥拓数据分类)
    importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltdata=pd.read_csv("./data/train.csv")data.head()importseabornassnssns.countplot(data.target)plt.show()#采用随机欠采样之前需要确定数据的特征值和标签值y=data["target"]x=data
  • 2023-09-16机器学习算法原理实现——adaboost,三个臭皮匠顶个诸葛亮
    adaboost算法的基本原理是什么?举一个简单的例子说明呢 AdaBoost(AdaptiveBoosting)是一种集成学习方法,其基本原理是结合多个弱学习器来构建一个强学习器。AdaBoost的工作方式如下:权重初始化:给定一个训练数据集,首先为每个训练样本分配一个权重,开始时这些权
  • 2023-08-19python机器学习经典算法代码示例及思维导图(数学建模必备)
    最近几天学习了机器学习经典算法,通过此次学习入门了机器学习,并将经典算法的代码实现并记录下来,方便后续查找与使用。这次记录主要分为两部分:第一部分是机器学习思维导图,以框架的形式描述机器学习开发流程,并附有相关的具体python库,做索引使用;第二部分是相关算法的代码实现(其实就是
  • 2023-07-13ITK 高斯混合模型 GMM EM
    1、高斯混合模型sklearn.mixture是一个能够学习高斯混合模型、抽样高斯模型和从数据中估计模型的包。同样,也提供了帮助决定正确组件数量的方法。一个高斯混合模型是一个概率模型,它假设所有的数据点是从有限未知参数的高斯分布的混合生成的。可以将混合模型当作泛化的k均
  • 2023-06-114.3 线性回归的改进-岭回归
    1.带有L2正则化的线性回归-岭回归岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果2.APIsklearn.linear_model.Ridge(alpha=1.0,fit_intercept=True,solver="auto",normalize=False)具有l2正则化的线性回归alpha:正
  • 2023-06-114.1 线性模型
    1回归问题什么是回归问题   目标值---连续型的数据应用场景房价预测销售额度预测金融:贷款额度预测、利用线性回归以及系数分析因子2什么是线性回归2.1定义线性回归(Linearregression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关
  • 2023-06-103.3 模型选择和调优(KNN)
    1.什么是交叉验证(crossvalidation)交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。我们之前知道数据分为训练集和测试集,
  • 2023-06-103.1分类算法之sklean转换器和预估器
    1.转换器**想一下之前做的特征工程的步骤?1、实例化(实例化的是一个转换器类(Transformer))2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)**标准化:(x-mean)/stdfit_transform() fit()计算每一列的平均值 transform()(x-mean)/std进行最终的转换我
  • 2023-04-08Vins-Mono 阅读笔记——estimator
    vins_estimator概述基本上VINS里面绝大部分功能都在这个package下面,包括IMU数据的处理(前端),初始化(我觉得可能属于是前端),滑动窗口(后端),非线性优化(后端),关键帧的选取(部分内容)(前端)。我第一次看的时候,总是抱有一个疑问,就是为什么把这么多内容全都放在这一个node里面。为了
  • 2022-12-18交叉验证与网格搜索
    一、概述1.1为什么用网格搜索与交叉验证在机器学习中,有大量的超参数需要指定;如果超参数指定不合适,则会出现过拟合和欠拟合。而指定超参数,一种方法是凭经验;一种方法是穷
  • 2022-10-31KNN算法之集美大学
     在本篇文章中,我即将以在集美大学收集到的一些数据集为基础,使用KNN算法进行一系列的操作一、KNN算法首先,什么是KNN算法呢,这得用到老祖宗说的一句话“近朱者赤近墨者
  • 2022-10-02knn 算法以及电影种类预测&莺尾花种类预测
    1.简介 K-NearestNeighbor算法又叫KNN算法(最近邻算法,k是选取几个距离其最近的样本作为参考),这个算法是机器学习里面一个比较经典的分类和回归算法。 定义:如果一个样本在