• 2024-11-20pandas 机器学习数据预处理:从缺失值到特征切分的全面解析
    Pandas机器学习数据预处理:从缺失值到特征切分的全面解析本文详细介绍了使用Pandas进行机器学习数据预处理的常用技巧,涵盖了数据清洗、异常值处理、训练与测试集划分等步骤。首先,我们展示了如何处理缺失数据,使用dropna()删除缺失值,并用图表直观展示异常值的处理过程。接着,
  • 2024-11-19R语言 | 宽数据变成一列,保留对应的行名和列名
    对应稀疏矩阵转为宽数据框,见数据格式转换|稀疏矩阵3列还原为原始矩阵/数据框,自定义函数df3toMatrix()目的:比如查看鸢尾花整体的指标分布,4个指标分开,画到一个图中。每个品种画一个图。1.数据整理:宽变长手工版dat0=irisdat=unlist(dat0[,1:4])|>as.data.frame()
  • 2024-11-11Python 学习记录 (4)
    Plotly常见可视化方案:以鸢尾花数据为例简单介绍:Ploty库也有大量统计可视化方案,并且这些可视化方案具有交互化属性。主要对鸢尾花数据进行处理与可视化。所展示的结果为交互界面的截图情况,这里不能进行交互。使用Plotly绘制散点图与箱型图,分类展示“花萼宽度”说明:类似'
  • 2024-09-189.16
    今天完成《机器学习》的第一次作业,找到了网上的大量的数据集,并且下载,试图理解。数据集名称Iris来源UCIMachineLearningRepository[下载地址: https://archive.ics.uci.edu/ml/datasets/Iris]数据集描述 Iris数据集是一个常用的多类别分类问题数据
  • 2024-09-13利用Pandas和Matplotlib进行数据探索性可视化:最佳实践与技巧
    数据可视化是数据分析中不可或缺的一环,它帮助我们更好地理解数据、发现趋势和模式,并有效地传达我们的发现。在Python领域,Pandas和Matplotlib是两个非常强大的库,它们提供了丰富的功能来进行数据分析和可视化。本文将介绍如何结合使用Pandas和Matplotlib进行数据探索性可视化的最佳实
  • 2023-08-27R语言之缺失值处理
    文章和代码已经归档至【Github仓库:<https://github.com/timerring/dive-into-AI>】或者公众号【AIShareLab】回复R语言也可获取。缺失值处理在实际的数据分析中,缺失数据是常常遇到的。缺失值(missingvalues)通常是由于没有收集到数据或者没有录入数据。例如,年龄的缺失可能是由于
  • 2023-08-27R语言之缺失值处理
    文章和代码已经归档至【Github仓库:<https://github.com/timerring/dive-into-AI>】或者公众号【AIShareLab】回复R语言也可获取。缺失值处理在实际的数据分析中,缺失数据是常常遇到的。缺失值(missingvalues)通常是由于没有收集到数据或者没有录入数据。例如,年龄的缺失可能是由于
  • 2022-12-18[seaborn] seaborn学习笔记5 小提琴图VIOLINPLOT
    date:2019-05-3114:30:21+0800tags:-seaborn-Python-数据分析与可视化5小提琴图Violinplot(代码下载)小提琴图允许可视化一个或多个组的数字变量的分
  • 2022-12-18[seaborn] seaborn学习笔记4 核密度图DENSITYPLOT
    date:2019-05-3110:27:35+0800tags:-seaborn-Python-数据分析与可视化4核密度图Densityplot(代码下载)核密度图显示数值变量的分布。它只需要一组数值
  • 2022-12-18[seaborn] seaborn学习笔记2 散点图Scatterplot
    2散点图Scatterplot(代码下载)散点图能够显示2个维度上2组数据的值。每个点代表一个观察点。X(水平)和Y(垂直)轴上的位置表示变量的值。研究这两个变量之间的关系是非常有用
  • 2022-12-18[seaborn] seaborn学习笔记1 箱形图Boxplot
    1箱形图Boxplot(代码下载)Boxplot可能是最常见的图形类型之一。它能够很好表示数据中的分布规律。箱型图方框的末尾显示了上下四分位数。极线显示最高和最低值,不包括异常
  • 2022-10-27【Alink-KMeans】基于Alink算法平台的聚类【Java实现】
    一、介绍Alink是基于Flink的通用算法平台。1.1数据聚类介绍1.可以定义为5组数据类型的特征字段名称:sepal_lengthdouble,sepal_widthdouble,petal_lengthdouble,peta