Pytorch数据预处理

时间：2023-05-11 13:34:11浏览次数：31

标签：inputs outputs Alley data Pytorch Pave csv 数据预处理

为了能用深度学习来解决现实世界的问题，我们经常从预处理原始数据开始，而不是从那些准备好的张量格式数据开始。

首先我们准备一个人工数据集：

这是一个.csv格式（用逗号隔开）的数据文件。该数据集有四行三列。其中每行描述了房间数量（“NumRooms”）、巷

子类型（“Alley”）和房屋价格（“Price”）。

1. 读取数据集

要从创建的CSV文件中加载原始数据集，我们导入pandas包并调用read_csv函数。

pd.read_csv()接收一个csv文件（以路径表示）作为参数，将这个csv文件中的数据读取出来。

2. 处理缺失值

注意，“NaN”项代表缺失值。为了处理缺失的数据，典型的方法包括插值法和删除法，其中插值法用一个替代值弥补缺失值，而删除法则直接忽略缺失值。在这里，我们将考虑插值法。

通过位置索引iloc，我们将data分成inputs和outputs，其中前者为data的前两列，而后者为data的最后一列。对于inputs中缺少的数值，我们用同一列的均值替换“NaN”项。

注意：1. data.iloc[]用于访问读进来的csv数据的索引。这个读进来的数据是不能直接用[]进行索引访问的，要使用data.iloc[]进行索引访问。

　　 2. 读进来的csv数据的保存对象（这里是inputs,outputs）的fillna方法可以处理缺失值，inputs.fillna(inputs.mean())表示用平均的方法处理inputs中的缺失值。

对于inputs中的类别值或离散值，我们将“NaN”视为一个类别。由于“巷子类型”（“Alley”）列只接受两种类型的类别值“Pave”和“NaN”， pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。巷子类型为“Pave”的行会将“Alley_Pave”的值设置为1，“Alley_nan”的值设置为0。缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。

3. 转换为张量格式

上面的inputs及outputs不能直接使用torch.tensor(inputs)或torch.tensor(outputs)转换成tensor，要使用inputs.values以及outputs.values.

标签：inputs,outputs,Alley,data,Pytorch,Pave,csv,数据,预处理
From： https://www.cnblogs.com/pkuqcy/p/17390731.html

政府数据中心能耗解决方案
安科瑞虞佳豪01概述智能配电技术在数据中心中的应用主要是为了提高能源效率、减少能源浪费、降低成本以及提高数据中心的可靠性。以下是智能配电技术在数据中心中的常见应用：智能断路器：智能断路器可以对电力负载进行监测和控制，通过实时调整电力负载，以确保数据中心的稳定运行。......
Tapdata 的 ∞ 实践：实时数据赋能电商资源分配，快速落地敏捷、可复用的库存数据服务
在不断提升的信息技术和数据分析能力的推动下，客户360已然成为企业管理中不可或缺的一部分。如今，客户接触渠道正在变得愈加多样化和复杂化，客户信息的获取也变得更加容易和全面。同时，竞争环境也日趋激烈，企业需要不断提高服务质量、满足客户需求，才有望在市场中抢占先机。在这样的......
SpringMVC18_SpringMVC获得请求数据5
一、获得请求参数-请求参数类型二、获得请求参数-获得基本类型参数三、获得请求参数-获得POJO类型参数四、获得请求参数-获得数组类型参数1 五、获得请求参数-获得集合类型参数2 六、获得请求参数-获得集合类型参数3 七、获得请求参数-静态资源......
EDI系统如何设置延迟处理数据？
在EDI系统中，延迟处理数据是一种非常重要的功能，可以使数据处理更加灵活，从而提高整个系统的效率。由于EDI系统进行数据交换的速度非常快。当数据被发送到接收方时，接收方需要立即对其进行处理。然而，在某些情况下，接收方可能无法立即处理数据，例如在系统维护期间或者其他原因。需要将数......
使用Mysql访问数据
首先前段配置好git然后在网址输入spring.io找到学习，指南选项打开AccessingdatawithMySQL 在选项中进行git克隆，等待完成后在idea中打开complete文件夹如果不更改镜像源会无法同步成功，构建需要进行镜像源修改......
freemarker 展示数据列表并传值给后台
selectid="initiatorId"name="initiatorId"><#ifinitiatorId=='-1'||initiatorId==''><optionvalue="-1"selected="selected">全部</opti......
freemarker在xml文件中遍历list数据
delete frompub_channelpackage wherechannelcode=:channelcode andchanneltype=:channeltype <#ifpackids?exists&&packids??> andpackidin( <#listpackidsaspackageId> ${packageId}<#ifpackageId_has_n......
react echarts tooltip 区域新加一个输入框，可以编辑保存数据
//demo页面//需求：产品要求在折线图的tooltip上新加一个输入框，可以编辑这个输入框保存备注信息，需要两种交互方式：1.鼠标滑过展示备注信息。2.鼠标点击某一个日期时，鼠标可以滑到tooltip上做保存/编辑操作。//思路：1.保留初始鼠标滑过echarts图效果。//2.主要难点是点击时to......
官网使用conda&pip安装PyTorch命令总结（包含各版本）
原网页https://pytorch.org/get-started/previous-versions/因为有时访问该网站比较慢，所以本博客记录该网页内容InstallingpreviousversionsofPyTorchWe’dpreferyouinstallthelatestversion,butoldbinariesandinstallationinstructionsareprovidedbelow......
Go语言（Golang）数据库编程
Go数据库编程一、连接数据库准备连接到数据库要想连接到SQL数据库，首先需要加载目标数据库的驱动，驱动里面包含着于该数据库交互的逻辑。sql.Open()数据库驱动的名称数据源名称得到一个指向sql.DB这个struct的指针sql.DB是用来操作数据库的，它代表了0个或者多个......

Pytorch数据预处理

1. 读取数据集

2. 处理缺失值

3. 转换为张量格式

相关文章

赞助商

阅读排行