首页 > 其他分享 >数据科学

数据科学

时间:2022-09-22 13:56:58浏览次数:65  
标签:处理 步骤 模型 学习 科学 数据

数据科学

它只是分析、预测和自动化的交叉点,而不是完整的分析、完整的预测和完整的自动化。

  • 数据科学谈论预测
  • 人工智能谈论自动化

人工智能

这是将人类智能输入计算机或机器的过程。

机器学习

ML 是 AI 的一个子集,负责从历史数据中学习模式。

什么是算法?

这是一种借助数学计算来学习模式的方法。

什么是深度学习?

深度学习是机器学习的一个子集,它处理从带有图像和视频的历史数据中学习模式。

自然语言处理 (NLP)

NLP 是 DL 的一部分。它处理从文本数据中学习模式。

项目

只不过是当我们有一个开始时间和一个结束时间。

交付项目的不同方法:

瀑布方法:

一次性交付一个项目。

敏捷方法:

以增量方式交付项目。

在敏捷中,我们遵循“敏捷 CRISP”。即-CRISP — 跨行业标准流程。

数据科学项目的生命周期:

  1. 业务理解:

毕竟,理解业务目标是非常重要的。我们需要了解客户是否希望最大限度地减少储蓄损失,或者他们是否更愿意预测商品的价格等。

2.数据理解:

业务理解之后,接下来就是数据理解。此步骤包括描述数据、其结构、相关性和记录类型。应该使用图形图来探索信息。通过简单地探索数据来提取我们可以获得的有关信息的任何数据。

3. 资料准备:

此阶段包括选择适用数据、使用合并数据集来整合数据、清理数据、通过消除或估算缺失值来处理缺失值、通过消除它们来处理不准确数据、另外使用框测试异常值等步骤阴谋并应付他们。构建新数据,从现有数据中获取新元素。将数据格式化为首选结构,消除不需要的列和特征。这一步是其他阶段中最耗时的。

4.探索性数据分析:(EDA)

这一步包括分析数据、可视化数据、描述性统计等。

4.1

特征工程:

  • 处理缺失值
  • 处理分类特征
  • 处理异常值
  • 处理不平衡的数据
  • 特征变换(归一化,转换为高斯曲线)
  • 特征提取
  • 创建派生特征

4.2 特征选择:

  • 检查相关性
  • 变异膨胀系数 (VIF)
  • 卡方检验
  • Annova 测试

5. 模型训练与评估:

此步骤包括选择合适的模型类型,无论问题是分类问题、回归问题还是聚类问题。在使用 Every 模型进行训练之后,我们需要谨慎地挑选模型来实施并执行它们。我们需要调整每个模型的超参数以获得首选性能。

  • 使用每个模型进行训练
  • 随机搜索简历
  • 网格搜索简历
  • TPOT分类器

在这里评估模型以检查它是否已准备好部署。该模型在看不见的数据上进行检查,并根据一组经过仔细考虑的评估指标进

6. 部署:

这是数据科学生命周期的最后一步。如果任何步骤执行不当,从而对后续步骤产生影响,那么所有的努力都会白费。

一般来说,部署 ML 模型有不同的选择,例如 Flask、Django、Streamlit 等。在大多数情况下,我们可以使用 Streamlit,因为它是最简单快捷的方式,并且不需要任何 Web 开发知识。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38728/42322213

标签:处理,步骤,模型,学习,科学,数据
From: https://www.cnblogs.com/amboke/p/16718967.html

相关文章

  • 为Ubuntu网页设置稳定的数据隧道
    网站作为互联网世界中的一个个门户,是我们对外表达的窗口,无数个人和企业通过这个窗口传递着信息,这个传递信息的窗口必须稳定持续存在,才能让更多访客看到,为我们带来更多的流......
  • MySql 数据备份
    相关命令的执行都在windows服务器下,且工作目录就是mysqlserver的bin目录下.1、mysqldump全备份mysqldump-h127.0.0.1-u用户名-p"密码"数据库名称有表的话写表......
  • 算法 玩转数据结构 2-2 二次封装属于我们自己的数组
    1重点关注1.1索引使用数组最大的优点:快速查询。scores[2]·数组最好应用于“索引有语意”的情况。·但并非所有有语意的索引都适用于数组(例如,以身份......
  • Mysql 修改数据存放目录
    1、关闭Mysql服务2、修改my.ini文件修改datadir路径至新目录,并且将原来的Data目录拷贝至新目录修改secure-file-priv路径至新目录,并且将原来的Uploads文件夹贝至新目......
  • 网络抓取数据科学及相关工作
    数据科学网络抓取数据科学及相关工作使用Requests&BeautifulSoup成功抓取了100多个职位空缺Data科学是****结合领域专业知识、编程技能以及数学和统计学知识......
  • ByteArrayOutputStream用法---读写类型数据
    ByteArrayOutputStream用法 字节数组流:ByteArrayOutputStream:  可以捕获内存缓冲区的数据,转换成字节数组。ByteArrayoutputStreambout=newByteArrayOutputStr......
  • 他来了!袋鼠云大数据基础平台EasyMR正式上线
    7月28日,在袋鼠云2022产品发布会上,袋鼠云技术负责人思枢正式宣布旗下产品「大数据基础平台EasyMR」发布。EasyMR是袋鼠云自研的大数据基础平台,提供Hadoop、Hive、Spark、Tr......
  • 数据仓库
    用于存储、分析、报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持 数仓本身不生产数据,不消费数据数据仓库为了分析数据 ......
  • TD项目数据迁移
    TestDirect(以下简称TD)它是]MercuryInteractive公司推出的基于WEB浏览器环境下的测试管理工具。通过TD的流程控制可以规范软件企业的测试流程、改善测试质量、减轻测试人......
  • vue3中watch监听ref reactive响应式数据写法及注意点
    watch函数与vue2中watch配置一致两个小坑监视reactive定义的响应式数据时,oldvalue无法正确获取,强制开启了深度监视(deep配置失败)监视reactive定义的响应式数据中某个......