首页 > 其他分享 >【动手学深度学习】04 数据操作 + 数据预处理(个人向笔记)

【动手学深度学习】04 数据操作 + 数据预处理(个人向笔记)

时间:2024-09-07 20:51:36浏览次数:14  
标签:表示 冒号 04 reshape 可以 元素 张量 数据 预处理

数据操作

  • N维数组是机器学习和神经网络的主要数据结构
  • 其中 2-d 矩阵中每一行表示每一行表示一个样本
    在这里插入图片描述
  • 当维度来到三维的时候则可以表示成一张图片,再加一维就可以变成多张图片,再加一维则可以变成一个视频
    在这里插入图片描述

访问元素

  • 冒号表示从冒号左边的元素到冒号右边的前一个元素(开区间),其中如果左边为空,那么表示从第一个开始,如果右边为空,那么表示访问到最后一个,如果两边都为空,则表示全部访问
  • 其中一行中我们指定了第一行:1,然后我们想要第一行的所有元素,所以我们把列冒号左右两边的元素都设置为空
  • 下图的列的标注有误,应该为:[:,1]
  • 其中还可以再添加一个冒号,表示访问的间隔,如最后一个示例所示:两个冒号后面的3表示下一次访问+3,两个冒号后面的2表示下一次访问+2
    在这里插入图片描述

数据操作实现

  • 张量(tensor): 一个数值组成的数组,这个数组可能有多个维度,如下图所示是一个一维的,长度为12的向量
  • 把变量放在jupyter的最后一行可以直接把它打印出来

在这里插入图片描述

  • 可以通过 shape 来访问张量的形状和张量中元素的总数,下图所示表示向量的维度为一,有 12 个元素
  • numel 为 number of element 表示总共有 12 个元素
    在这里插入图片描述
  • 可以通过 reshape 来更改张量的形状而不改变元素的个数
    在这里插入图片描述
  • zeros: 创造全 0 的张量
  • ones: 创造全1的张量
  • 2,3,4 可以理解成 2 个通道,3*4 的矩阵。也可以理解为 2 个,3 行,4 列
    在这里插入图片描述
  • 还可以传入列表来生成张量,需要把全部列表都包含在一个列表里面传入:
    在这里插入图片描述
  • 常见的标准运算符:+, -, *, /, ** 都可以被视为tensor间的按元素运算
    在这里插入图片描述
  • 可以用 cat 来进行指定维度的张量连接
    在这里插入图片描述
  • 可以通过逻辑运算符构建二元张量
    在这里插入图片描述
  • 可以对所有元素求和生成一个只有一个元素的张量
    在这里插入图片描述
  • 张量的广播机制: 一个在实际运用中很容易出错的地方。当两个张量的维度相同且两个张量都有一个是一维的,但是每一维的元素数量不同时,数量较少的那个张量会进行复制自己到和数量较大的数量相同后运算。
  • 下图第一维 b 的数量较少,于是 b 又额外复制了两个 [0. 1] 到第一维参与运算。而第二维 a 的数量较少,于是 a 的每个都复制了自身变成了 [0, 0], [1, 1], [2, 2]
    在这里插入图片描述
  • 我们可以指定索引来读取的修改张量:
    在这里插入图片描述
  • 张量操作的内存相关内容: 其中 id 是类似 c 语言指针的东西。下面的第一段代码表示直接用一个相同名字的变量来接收的话是会开辟新的内存的,即使它们名字一样。但是如果是指定所有元素[ : ]的话则不会
    在这里插入图片描述
  • 所以如果后续没有再使用 X 的话,可以用 X[ : ] 来进行操作来减少内存的开销:
    在这里插入图片描述
  • 可以用numpy的数组来构建张量:
    在这里插入图片描述
  • 可以将大小为 1 的张量转化为 python 中的标量:
    在这里插入图片描述

数据预处理实现

  • 课堂代码如下:
    在这里插入图片描述
  • 其中沐神并未解释前面几行代码的含义:问gpt结果如下
    在这里插入图片描述
    在这里插入图片描述
  • 可以用 pandas 里面的 read_csv 来读取csv文件:
    在这里插入图片描述
  • 可以用 iloc 来按索引取文件中的内容
  • 可以用 fillna 来填充数据中的 NaN 值,可以用 mean() 来取数据中的平均值,下面表示用均值填充
    在这里插入图片描述
  • 对于数据中的类别值或者离散值,我们可以将NaN变为一个类别:
    在这里插入图片描述
    在这里插入图片描述
  • 在经过上述处理后,input 和 output 都变成了数值,现在可以转化成 tensor 了
    在这里插入图片描述

Q&A

  • reshape 和 view 的区别:reshape 是浅拷贝,如果修改 reshape 后的张量,那么被 reshape 的张量也会被修改:
    在这里插入图片描述

标签:表示,冒号,04,reshape,可以,元素,张量,数据,预处理
From: https://blog.csdn.net/hxdxiaoming/article/details/141997160

相关文章

  • Springboot“科教兴国”支教门户网站rp778程序+源码+数据库+调试部署+开发环境
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表用户,支教介绍,支教新闻,招聘信息,职位申请,志愿者活动,活动报名,募捐信息,捐赠信息,支教教师,支教学生,科教职位开题报告内容一、项目背景在“科教兴国”战略......
  • 条款04: 确定对象被使用前已被初始化
    1.对象使用之前进行初始化voidTest00(){intx=0;constchar*text="AC-stylestring";doubled;std::cin>>d;}1.使用初始化列表进行初始化2.baseClass的初始化早于derivedClass3.class的成员变量总是以声明的顺序进行初始化,而不是在成员初......
  • Ubuntu 22.04 镜像源
    #aliyundebhttp://mirrors.aliyun.com/ubuntu/lunarmainrestricteduniversemultiversedeb-srchttp://mirrors.aliyun.com/ubuntu/lunarmainrestricteduniversemultiversedebhttp://mirrors.aliyun.com/ubuntu/lunar-securitymainrestricteduniversemultive......
  • CSS预处理器(如Sass和Less)的优势在哪里?
    CSS预处理器(如Sass和Less)的优势在哪里?在现代网页开发中,CSS是不可或缺的一部分。随着项目的复杂度不断增加,传统的CSS编写方式暴露出了一些局限性。为了解决这些问题,开发者们引入了CSS预处理器,如Sass和Less。这些工具不仅提高了CSS的可维护性和可读性,还为开发者提供了一系列......
  • MaxCompute 入门:大数据处理的第一步
    在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的MaxCompute(原名ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、......
  • postgres数据库中如何看查询是否走索引,以及在什么情况下走索引
    在PostgreSQL中,可以通过EXPLAIN或EXPLAINANALYZE查看查询计划,以判断查询是否使用了索引。除此之外,了解索引的使用条件对于优化查询性能也很重要。1.如何查看查询是否使用索引使用EXPLAIN查看查询计划EXPLAIN显示PostgreSQL如何执行查询,包括是否使用索引。E......
  • SpringMVC使用:类型转换&数据格式化&数据验证
    01-类型转换器先在pom.xml里面导入依赖,一个是mvc框架的依赖,一个是junit依赖然后在web.xml里面导入以下配置(配置的详细说明和用法我在前面文章中有写到)创建此测试类的方法用于测试springmvc是具备自动类型转换功能的user属性如下show.jsp内容如下在客户端输入如下数......
  • 洛谷 P4829 kry loves 2048——题解
    洛谷P4829题解传送锚点摸鱼环节kryloves2048题目背景kls是一个人赢。题目描述kls最近在玩一款类似2048的游戏,规则是这样的:一开始,有\(n\)个方块,每个方块上有一个\(1\)到\(m\)的整数。kls可以进行两种操作:选择两个数字相同的方块(不一定要相邻),将它们合并成一个数字为......
  • 数据分析师陆金雨先生
    陆金雨个人网站hirejinyuluplz.com陆金雨,男,加拿大萨省大学 [1]  计算机ComputerScience优秀毕业生。高等数学及线性代数全系第一。线性代数取得该学校历史最高分99/100,毕业后同时被授予BachelorofScience [3]  andcertificateofcomputing。连云港市人,少年阶段......
  • Paladin® HD系列: 245-8214-11V、245-8216-11V、245-8218-11V、245-8219-11V、245-82
    优化的密度和性能Paladin®HD互连系统具有高密度,支持112GB/s的数据速率,提供高带宽,在1U空间内支持多达144个正交差分对。PaladinHD采用平衡对结构;采用单独组装和分立屏蔽差分对,配备颠覆性的混合板固定机构,可实现高密度传输。配接接口旨在优化空间并避免传统的正交"扭曲"。Paladin......