首页 > 其他分享 >数据处理相关

数据处理相关

时间:2024-05-09 23:24:11浏览次数:17  
标签:编码 缩放 ---- ------ ----- 数据处理 相关 数据

1、数据来源

  -----1、调查数据和观察数据

  -----2、数据库数据----关系型数据和非关系型数据

  -----3、爬虫数据

  -----4、日志数据

2、数据类型

  -----1、结构化数据----基本数据类型、二维表结构数据

  -----2、集合数据类型----列表、元组、字典、集合、推导式

  -----3、结构化数据----数组、矩阵、数列、数据帧、日期时间型数据

  -----4、非结构化数据----网页与JSON数据、图像数据、音频数据、视频数据

3、数据编码

  -----1、数据编码的结构类型----分类编码、顺序编码、分段编码、值标签编码、Dummy/虚拟变量编码、尺度编码

4、数据清洗

  -----1、异常值清洗----异常值识别、异常值处理

  -----2、重复数据清洗-----重复数据检测、重复数据删除

  -----3、低频类别清洗-----低频类别识别、低频类别处理

  -----4、数据纠错-----逻辑纠错、格式纠错

  -----5、数据纠偏-----数据偏度识别、数据偏度测量、数据偏度纠正

5、数据插补

  ------1、数据缺失类型、原因、影响、表现

  ------2、缺失值插补----简单统计量插补、聚类插补、模型插补

  ------3、MVP------MVP分析思路、MVP提取方法

6、数据配平

  ------1、不平衡数据

  ------2、数据配平方法-----欠采样法、过采样法、混合采样

  ------3、数据配平的影响------数据配平的效果、模型预测结果的偏离及其校正方法、欠采样对预测稳定性的影响

7、数据重构

  ------1、数据组合-----序列组合、水平组合、垂直组合、深度组合、列组合、行组合

  ------2、轴向连接------左右拼接、数据追加

  ------3、数据融合-----键融合、索引融合、插补融合

  ------4、数据重塑-----Panel、层次化索引、stack与unstack

  ------5、数据分拆-----水平分拆、垂直分拆、深度分拆、逻辑分拆、随机采样与数据分割

  ------6、数据聚合

8、数据变换

  ------1、连续数据函数变换-----对数变换、平方根变换、倒数变换、幂变换与BOX-COX变换

  ------2、连续数据离散化------客观法、主观法

  ------3、数据次序化------升降次序、位置与秩、秩的计算方法、秩的缺失值处理、DataFrame中的秩

  ------4、多分类数据哑变量化------哑变量与one-hot码、多分类数据转换为哑变量、多分类数据转换为one-hot码

  ------5、定性数据数量化-----顺序数据转化为得分、构造定性数据的平滑值

9、数据缩放

  ------1、数据缩放方法-----中心化、标准化、Min-Max缩放、Max-ABS缩放、Robust缩放

10、数据规约

  ------1、变量选择方法-----使用统计量、决策树模型、Lasso算法

  ------2、样本规约

 

标签:编码,缩放,----,------,-----,数据处理,相关,数据
From: https://www.cnblogs.com/kate7/p/18183303

相关文章

  • ***新版MJ数据处理工作流
      批量重命名importosimportreimportshutildefreplace_double_underscore(folder_path):forroot,dirs,filesinos.walk(folder_path):forfilenameinfiles:if"__"infilename:new_filename=filename.......
  • AB实验相关流程
    本篇文章介绍的是一个完整AB测试流程应该怎么走。 AB测试流程有以下几个步骤:一、选取实验指标二、建立实验假设三、选取实验单位四、确定最小提升预期值五、计算最小样本量六、流量分割七、确定实验时长八、数据统计九、得出结论接下来就详细说明每个步骤。一......
  • LLaMA-Factory 训练 Llama3-Chinese-8B-Instruct 相关报错问题解决
    模型路径up主为llama中文社区模型地址https://www.modelscope.cn/models/FlagAlpha/Llama3-Chinese-8B-Instruct/summarysysinfov10032gnvcc--versioncuda11.8pythonimporttorchprint(torch.version)13.11pipinstallflash_attntimeout2下载whl报这个错......
  • text-generation-webui 推理模型Qwen1.5-7B-Chat相关报错问题解决
    推理代码text-generation-webui推理模型Qwen1.5-7B-Chatsysinfo nvcc--versioncuda11.8importtorch>>>print(torch.__version__)1路径错误2依赖没安装ImportError:Thismodelingfilerequiresthefollowingpackagesthatwerenotfoundinyourenvironme......
  • 开关电源基本原理和相关概念
    开关电源作为现代电子设备中不可或缺的部分,为我们提供了高效稳定的电力解决方案。从家用电器到工业设备,从通信设备到计算机,开关电源在各种应用中发挥着关键作用。1工作原理开关电源利用开关器件(如MOSFET、BJT等)进行高速开关操作,通常采用脉冲宽度调制(PWM)技术去调整开关器件的工......
  • C# 相关记录
     程序转成Windows服务varoptions=newWebApplicationOptions{Args=args,ContentRootPath=WindowsServiceHelpers.IsWindowsService()?AppContext.BaseDirectory:default};varbuilder=WebApplication.CreateBuilder(options); webservices服务转成cs类......
  • 数学相关
    数学相关最大公约数模板intgcd(inta,intb){ intx=a%b;while(x){a=x;a^=b^=a^=b;x=a%b;}returnb;}最大公倍数模板intlcm(inta,intb){returna*b/gcd(a,b);}质数相关确定是不......
  • 字符串相关
    字符串相关文章参考:[详解-字符串]C++必知必会字符串-string常用各种操作解析-知乎(zhihu.com)C++字符串(string)常用操作总结-知乎(zhihu.com)c++读取字符串和字符的6种函数_c++获取字符串的每个字符-CSDN博客字符串使用大全(比较实用的):C++中的String的常用函数用法总......
  • 021Dockerfile相关
    一、dockerhistory镜像层文件确认方法#(1)问:如何查询dockerfile里的ADDfile:a0a9df396dd400a83cc437cba4830851b18457de79db5955704378c6d206b9a1in/usr/local/java/实际文件file后的id?ADDfile:a0a9df396dd400a83cc437cba4830851b18457de79db5955704378c6d206b9a1i......
  • Keil编译后的Code,RO,RW,ZI等相关
    在使用keil开发STM32应用程序时,点击Build后在BuildOutput窗口中经常会有如下信息:以前一直好奇这几个参数和实际使用的STM32芯片中Flash和SRAM的对应关系,于是上网搜了一圈,做如下总结:这些参数的单位是Byte图中几个参数分别代表 Code:代码的大小RO:常量所占空间(加了const修饰......