首页 > 其他分享 >机器学习一般流程

机器学习一般流程

时间:2022-09-20 08:33:05浏览次数:59  
标签:采样 ... 机器 误差 特征 流程 学习 数据 模型

 预备:把实际问题转化为机器学习问题,即能够从现有的数据中学的某种规律,从而解决实际问题(预测或分类)

机器学习是数据和模型的结合。 

 

一.获取数据:人工合成、爬虫、数据库、公开数据集、收集数据...

 

二.数据预处理:

1.数据清洗:缺失数据、重复数据、一致性检验

2.数据转成数字:经验、一般映射

3.特征转换:定性特征和定量特征的处理

4. 训练数据采样:随机采样、系统采样、分层采样、上采样、下采样

5.特征归一化:均值化、标准化...

 

三.特征工程

1.特征构建:特征转换、特征组合、特征分割

2.特征提取:特征转换、降维(PCA等)、模型方法提取

3.特征选择:过滤式(相似性度量、相关性比较,方差...)、包装法(向前选择和向后选择、完全搜索、启发式搜索、随机搜索)、集成方法(正则化(L_1, L_2 范数)、决策树、深度学习、回归模型,SVM,随机森林)

 

四.建模准备

1.划分数据集:训练集+开发集+测试集+训练/开发集

2.数据可视化:表格、条形图、线图、散点图...

 

五.建模并改进

1.明确问题:分类、回归、监督、无监督、半监督

2.假设单实数评估指标:AUC/ROC、均方误差、多指标变为单指标...

3.快速选择一些假设模型并进行迭代:svm、线性模型、神经网络、决策树...

4.设定代价函数:是否加正则项、均方误差....

5.选择优化算法解决最优化代价函数的问题:adam、sgd、动量、

6.模型训练:一些参数的设置

7.模型评估和选择:去除偏差较大的模型后选择其中方差最小的模型

8.模型改进:绘制学习曲线进行偏差/方差分析,改进欠拟合或过拟合问题(降低模型复杂度或提高模型复杂度)

9.误差分析作进一步改进:用正交化方法处理各种问题(数据集分布错误、方差、可避免误差、开发集拟合度、假设检验)

 

六.投入实际运行

1.若表现差,可能要改变评估标准或改变开发集或测试集,重头再来

2.若表现好,进行模型监测和更新:每隔一段时间更新模型和数据

标签:采样,...,机器,误差,特征,流程,学习,数据,模型
From: https://www.cnblogs.com/liuys635/p/16709796.html

相关文章

  • MAUI学习笔记(三)-视图绑定模型
    一、创建实体模型-About.csusingSystem;namespaceTest.Models{///<summary>///关于页///</summary>publicclassAbout{///<......
  • Java学习-第一部分-第三阶段-第三节:MySQL基础
    零基础学MySQL笔记目录:(https://www.cnblogs.com/wenjie2000/p/16378441.html)一个问题淘宝网,京东、微信,抖音都有各自的功能,那么当我们退出系统的时候,下次再访问时,为什......
  • Flask学习笔记(一)-最小实例+路由
    一、Flask说明Flask是一个使用Python编写的轻量级Web应用框架。其WSGI工具箱采用Werkzeug,模板引擎则使用Jinja2。Flask使用BSD授权。Flask也被称为“microfr......
  • Ti毫米波学习笔记---参数设置和雷达距离方程
    前言​ 在之间的文章中已经分析FMCW雷达的测距和测速的理论知识,在了解这些知识后,我们便可以根据我们的功能的需求参数来设置我们的雷达的参数。本章先简单的说明了雷达参......
  • Activiti6.0下activiti-app实现一个简单请假流程
    Activiti6.0下activiti-app、activiti-admin、activiti-rest的基本配置,详见上文:https://www.cnblogs.com/gdjlc/p/16703897.html下面实现一个简单请假流程。一、创建流程......
  • 浅谈软件工程——写在学习之前
    写在前面该blog用于记录本人与2022年秋学习软件工程的历程和感悟。今天先简要地谈谈在正式学习前对软件工程的理解,主要内容来源于曹健老师的第一节课以及通过网络收集的......
  • Netty 学习(四):ChannelHandler 的事件传播和生命周期
    Netty学习(四):ChannelHandler的事件传播和生命周期作者:Grey原文地址:博客园:Netty学习(四):ChannelHandler的事件传播和生命周期CSDN:Netty学习(四):ChannelHandler的事件......
  • 对比学习
    TableofContents路线1:记忆库在实例级构建,实例级更新,损失函数在实例级计算路线2:记忆库在类级构建,实例级更新,损失函数在类级计算路线3:记忆库在类级构建,类级更新,......
  • java学习
    1.基本规范每个java文件只能有一个publicclass,且类名要与文件名相同文件调用的是publicstaticvoidmain(String[]args)函数类名(文件名)首字母大写,函数名单个单词......
  • NumPy科学计算库学习_012_NumPy数组中的线性代数
    一、定义数组importnumpyasnpA=np.array([[4,2,3],[1,3,1]])B=np.array([[2,7],[-5,-7],[9,3]])print("【矩阵A】\n",A)print("【矩阵B】\n",B)【矩阵A】[......