• 2024-11-21数据准备与模型评估
    实验一:数据准备与模型评估 一、实验目的熟悉Python的基本操作,掌握对数据集的读写实现、对模型性能的评估实现的能力;加深对训练集、测试集、N折交叉验证、模型评估标准的理解。 二、实验内容(1)利用pandas库从本地读取iris数据集;(2)从scikit-learn库中直接加载iris
  • 2024-11-20Python 人工智能项目的五大实战技巧
    技巧一:数据预处理的重要性理论讲解:数据是机器学习的基础,而数据预处理则是确保模型性能的关键步骤。常见的数据预处理技术包括数据清洗、缺失值处理、特征缩放和编码等。通过这些步骤,可以提高模型的准确性和泛化能力。代码示例:importpandasaspdfromsklearn.preprocess
  • 2024-11-18人工智能之机器学习(初步应用部分)数据集、特征工程
    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言scikit-learn工具介绍数据集(重点介绍和了解)sklearn玩具数据集介绍sklearn现实世界数据集介绍sklearn加载玩具数据集数据集总结**重要属性**:掌握薄弱点特征工程步骤归一化minmaxscaler标准化
  • 2024-11-18实验二:逻辑回归算法实现与测试
    一、实验目的深入理解对数几率回归(即逻辑回归的)的算法原理,能够使用Python语言实现对数几率回归的训练与测试,并且使用五折交叉验证算法进行模型训练与评估。二、实验内容(1)从scikit-learn库中加载iris数据集,使用留出法留出1/3的样本作为测试集(注意同分布取样);(2)使用训练
  • 2024-11-16Python--scikit-learn
    数据集sklearn.datasetsfromsklearn.datasetsimportload_iris,fetch_20newsgroups小数据集下载load_xxx大数据集下载fetch_xxx模型KNNK-近邻算法参考距离计算k值选择kd树fromsklearn.neighborsimportKNeighborsClassifierfromsklearn.neighborsimpor
  • 2024-11-1311.13机器学习_KNN和模型选择调优
    7特征降维实际数据中,有时候特征很多,会增加计算量,降维就是去掉一些特征,或者转化多个特征为少量个特征特征降维其目的:是减少数据集的维度,同时尽可能保留数据的重要信息。特征降维的好处:减少计算成本:在高维空间中处理数据可能非常耗时且计算密集。降维可以简化模型,
  • 2024-11-13一、机器学习算法与实践_07支持向量机与集成学习算法笔记
    1支持向量机1.1定义SVM(SupportVectorMachine,即:支持向量机)是一种监督学习算法,主要用于分类问题,但也可用于回归分析(称为支持向量回归,SupportVectorRegression,简称SVR)1.2核心思想最大间隔原则:SVM试图找到一个超平面(在二维空间中是一条直线,在三维空间中是一个平面,在更
  • 2024-11-12Python 进行数据挖掘的算法介绍
    1.决策树决策树是一种用于分类和回归任务的监督学习算法。它通过树状结构来表示决策过程,每个内部节点表示一个属性上的测试,每个分支代表一个测试结果,每个叶节点代表一种分类结果。示例代码:fromsklearn.datasetsimportload_irisfromsklearn.treeimportDecisionTreeCl
  • 2024-11-07采用 Python 机器学习预测足球比赛结果
    足球是世界上最火爆的运动之一,世界杯期间也往往是球迷们最亢奋的时刻。比赛狂欢季除了炸出了熬夜看球的铁杆粉丝,也让足球竞猜也成了大家茶余饭后最热衷的话题。甚至连原来不怎么看足球的人,也是暗中努力恶补了很多足球相关知识,想通过赛事竞猜先赚一个小目标。今天我们将介绍
  • 2024-11-05什么是pipeline?
    一、概念    pipeline,中文名称又称为管线、传输途径,直译起来有点蹩脚,我们可以理解成它就是一个把各个工具串起来的一个流水线。这里,我们常见的主要有两类pipeline,一类是sklearn中的pipeline,一类是Transformers库中的pipeline。二、sklearn中的pipeline      
  • 2024-11-01sklearn当中fit_transform和transform方法的区别;数据标准化
    为什么要标准化?如何标准化?内容fit_transform和transform的区别这两个方法都用于对数据进行转换,但它们的适用场景和作用略有不同。1.fit_transform()作用:对数据执行拟合(fit)和转换(transform)操作。用法:用于训练数据,计算均值和标准差等统计量,并基于这些统计量对数据进行转
  • 2024-10-27机器学习——自动化机器学习(AutoML)
    机器学习——自动化机器学习(AutoML)自动化机器学习(AutoML)——2024年的新趋势什么是AutoML?AutoML的关键组成部分AutoML的优势AutoML实例:使用Auto-sklearn进行回归分析AutoML的应用领域2024年值得关注的AutoML工具持续发展的趋势自动化机器学习(AutoML)——让机器学习更高
  • 2024-10-21【机器学习】支持向量机SVM|高斯核 讲解及代码实现
    支持向量机SVM支持向量机介绍SVM全称是SupportedVectorMachine(支持向量机)即寻找到一个超平面使样本分成两类,并且间隔最大。是一种监督学习算法,主要用于分类,也可用于回归与逻辑回归和决策树等其他分类器相比,SVM提供了非常高的准确度优点:适合小样本高纬度数据
  • 2024-10-14机器学习——自动化机器学习(AutoML)
    机器学习——自动化机器学习(AutoML)自动化机器学习(AutoML)——2024年的新趋势什么是AutoML?1.0AutoML的关键组成部分AutoML的优势1.0AutoML实例:使用Auto-sklearn进行回归分析AutoML的应用领域2024年值得关注的AutoML工具持续发展的趋势自动化机器学习(AutoML)——让机器学
  • 2024-10-12机器学习主成分分析算法 PCA—python详细代码解析(sklearn)
    一、问题背景在进行数据分析时,我们常常会遇到这样的情况:各个特征变量之间存在较多的信息重叠,也就是相关性比较强。就好比在研究一个班级学生的学习情况时,可能会收集到学生的语文成绩、数学成绩、英语成绩等多个特征变量。但往往会发现,语文成绩好的学生,数学和英语成绩也可能比
  • 2024-10-08关于九种降维算法的一份介绍
    在这篇文章中我将介绍有关降维的一些东西,其中包括一些常见降维方法的概念、用途、优缺点以及python代码。一、概念降维是机器学习中常用到的一种技术,其用于减少数据集的维度,但又能保存数据集的重要信息,从而简化数据的处理,并提高计算效率、调高模型的性能以及方便可视化。二
  • 2024-09-21Scikit-learn (`sklearn`) 教程
    Scikit-learn(sklearn)教程Scikit-learn是Python中最流行的机器学习库之一,提供了丰富的机器学习算法、数据预处理工具以及模型评估方法,广泛应用于分类、回归、聚类和降维等任务。在本教程中,我们将介绍如何使用Scikit-learn进行数据加载、特征处理、模型训练与评估,
  • 2024-09-20机器学习之Python中Scikit-Learn(sklearn)入门
    文章目录机器学习之Python中Scikit-Learn(sklearn)入门一、引言二、安装与导入1、安装2、导入库三、LinearRegression线性回归1、算法简介2、模型创建与训练2.1、创建模型2.2、数据准备2.3、划分数据集2.4、模型训练3、模型评估4、模型使用四、总结机器学习之Python
  • 2024-09-16day9
    缺失值处理importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspdfrommatplotlib.font_managerimportFontPropertiesfromsklearnimportdatasetsfont=FontProperties(fname='/Library/Fonts/Heiti.ttf')fromioimportStringIOiris_da
  • 2024-09-15使用knn算法对iris数据集进行分类
    程序功能使用scikit-learn库中的鸢尾花数据集(Irisdataset),并基于KNN(K-NearestNeighbors,K近邻)算法进行分类,最后评估模型的准确率。代码fromsklearnimportdatasets#加载鸢尾花数据集iris=datasets.load_iris()#查看数据集中的特征和目标print(iris.data[
  • 2024-09-13【机器学习实战】用sklearn玩转随机森林,分类准确率提升秘籍!
    在机器学习的世界里,随机森林算法以其出色的分类和回归能力而闻名。我们将深入sklearn库中的随机森林,探索如何通过实战提升模型的分类准确率。一随机森林算法简介随机森林是一种集成学习方法,通过构建多个决策树并综合它们的预测结果来提高预测准确性。每个决策树都是在训
  • 2024-09-09关于交叉验证的一些介绍
    在这篇文章中,我将介绍“交叉验证”这一评估泛化性能的统计学方法,它比起单次划分训练集与测试集的方法更稳定与全面。首先我会简单介绍它的概念,然后是分层k折交叉验证和其他策略,最后是一些代码实现。一、概念交叉验证(k-foldcross-validation),是指将数据集进行多次划分,分为几
  • 2024-09-03Python中,使用`sklearn.preprocessing`模块中的`StandardScaler`或`MinMaxScaler`可以对数据进行标准化或归一化处理 数据预处理
    在Python中,使用`sklearn.preprocessing`模块中的`StandardScaler`或`MinMaxScaler`可以对数据进行标准化或归一化处理。以下是如何对一个列表(list)中的数据进行标准化的示例:第一结合numpy###使用StandardScaler进行标准化(Z-scorenormalization)`StandardScaler`将数据转换为均值
  • 2024-08-31【机器学习】sklearn核心分类算法比较
    sklearn核心分类算法比较sklearn分类问题的核心算法及其关联核心分类算法其他分类算法算法之间的关联示例代码运行结果sklearn分类问题的核心算法及其关联在scikit-learn中,分类问题是机器学习中最常见的任务之一。scikit-learn提供了多种分类算
  • 2024-08-27特征选择
    参考:https://blog.csdn.net/Datawhale/article/details/120582526https://zhuanlan.zhihu.com/p/74198735特征选择目录特征选择一般流程三大类方法过滤法1.单变量2.多变量2.1连续型vs连续型(1)Pearson相关系数(2)斯皮尔曼相关系数2.2连续型vs类别型(1)方差分析(2)肯德