首页 > 其他分享 >Pytorch数据预处理

Pytorch数据预处理

时间:2023-05-11 13:34:11浏览次数:27  
标签:inputs outputs Alley data Pytorch Pave csv 数据 预处理

为了能用深度学习来解决现实世界的问题,我们经常从预处理原始数据开始, 而不是从那些准备好的张量格式数据开始。

首先我们准备一个人工数据集:

 这是一个.csv格式(用逗号隔开)的数据文件。该数据集有四行三列。其中每行描述了房间数量(“NumRooms”)、巷

子类型(“Alley”)和房屋价格(“Price”)。

1. 读取数据集

要从创建的CSV文件中加载原始数据集,我们导入pandas包并调用read_csv函数。

 pd.read_csv()接收一个csv文件(以路径表示)作为参数,将这个csv文件中的数据读取出来。

2. 处理缺失值

注意,“NaN”项代表缺失值。 为了处理缺失的数据,典型的方法包括插值法删除法, 其中插值法用一个替代值弥补缺失值,而删除法则直接忽略缺失值。 在这里,我们将考虑插值法。

通过位置索引iloc,我们将data分成inputsoutputs, 其中前者为data的前两列,而后者为data的最后一列。 对于inputs中缺少的数值,我们用同一列的均值替换“NaN”项。

注意:1. data.iloc[]用于访问读进来的csv数据的索引。这个读进来的数据是不能直接用[]进行索引访问的,要使用data.iloc[]进行索引访问。

     2. 读进来的csv数据的保存对象(这里是inputs,outputs)的fillna方法可以处理缺失值,inputs.fillna(inputs.mean())表示用平均的方法处理inputs中的缺失值。

 

对于inputs中的类别值或离散值,我们将“NaN”视为一个类别。 由于“巷子类型”(“Alley”)列只接受两种类型的类别值“Pave”和“NaN”, pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。 巷子类型为“Pave”的行会将“Alley_Pave”的值设置为1,“Alley_nan”的值设置为0。 缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。

 

3. 转换为张量格式

上面的inputs及outputs不能直接使用torch.tensor(inputs)或torch.tensor(outputs)转换成tensor,要使用inputs.values以及outputs.values.

 

标签:inputs,outputs,Alley,data,Pytorch,Pave,csv,数据,预处理
From: https://www.cnblogs.com/pkuqcy/p/17390731.html

相关文章

  • 政府数据中心能耗解决方案
    安科瑞虞佳豪01概述智能配电技术在数据中心中的应用主要是为了提高能源效率、减少能源浪费、降低成本以及提高数据中心的可靠性。以下是智能配电技术在数据中心中的常见应用:智能断路器:智能断路器可以对电力负载进行监测和控制,通过实时调整电力负载,以确保数据中心的稳定运行。......
  • Tapdata 的 ∞ 实践:实时数据赋能电商资源分配,快速落地敏捷、可复用的库存数据服务
    在不断提升的信息技术和数据分析能力的推动下,客户360已然成为企业管理中不可或缺的一部分。如今,客户接触渠道正在变得愈加多样化和复杂化,客户信息的获取也变得更加容易和全面。同时,竞争环境也日趋激烈,企业需要不断提高服务质量、满足客户需求,才有望在市场中抢占先机。在这样的......
  • SpringMVC18_SpringMVC获得请求数据5
    一、获得请求参数-请求参数类型 二、获得请求参数-获得基本类型参数  三、获得请求参数-获得POJO类型参数 四、获得请求参数-获得数组类型参数1  五、获得请求参数-获得集合类型参数2  六、获得请求参数-获得集合类型参数3  七、获得请求参数-静态资源......
  • EDI系统如何设置延迟处理数据?
    在EDI系统中,延迟处理数据是一种非常重要的功能,可以使数据处理更加灵活,从而提高整个系统的效率。由于EDI系统进行数据交换的速度非常快。当数据被发送到接收方时,接收方需要立即对其进行处理。然而,在某些情况下,接收方可能无法立即处理数据,例如在系统维护期间或者其他原因。需要将数......
  • 使用Mysql访问数据
    首先前段配置好git然后在网址输入spring.io找到学习,指南选项 打开AccessingdatawithMySQL 在选项中进行git克隆,等待完成后在idea中打开complete文件夹 如果不更改镜像源会无法同步成功,构建需要进行镜像源修改......
  • freemarker 展示数据列表并传值给后台
    selectid="initiatorId"name="initiatorId"><#ifinitiatorId=='-1'||initiatorId==''><optionvalue="-1"selected="selected">全部</opti......
  • freemarker在xml文件中遍历list数据
    delete   frompub_channelpackage   wherechannelcode=:channelcode   andchanneltype=:channeltype   <#ifpackids?exists&&packids??>    andpackidin(         <#listpackidsaspackageId>     ${packageId}<#ifpackageId_has_n......
  • react echarts tooltip 区域新加一个输入框,可以编辑保存数据
     //demo页面//需求:产品要求在折线图的tooltip上新加一个输入框,可以编辑这个输入框保存备注信息,需要两种交互方式:1.鼠标滑过展示备注信息。2.鼠标点击某一个日期时,鼠标可以滑到tooltip上做保存/编辑操作。//思路:1.保留初始鼠标滑过echarts图效果。//2.主要难点是点击时to......
  • 官网使用conda&pip安装PyTorch命令总结(包含各版本)
    原网页https://pytorch.org/get-started/previous-versions/因为有时访问该网站比较慢,所以本博客记录该网页内容InstallingpreviousversionsofPyTorchWe’dpreferyouinstallthelatestversion,butoldbinariesandinstallationinstructionsareprovidedbelow......
  • Go语言(Golang)数据库编程
    Go数据库编程一、连接数据库准备连接到数据库要想连接到SQL数据库,首先需要加载目标数据库的驱动,驱动里面包含着于该数据库交互的逻辑。sql.Open()数据库驱动的名称数据源名称得到一个指向sql.DB这个struct的指针sql.DB是用来操作数据库的,它代表了0个或者多个......