数据操作
- N维数组是机器学习和神经网络的主要数据结构
- 其中 2-d 矩阵中每一行表示每一行表示一个样本
- 当维度来到三维的时候则可以表示成一张图片,再加一维就可以变成多张图片,再加一维则可以变成一个视频
访问元素
- 冒号表示从冒号左边的元素到冒号右边的前一个元素(开区间),其中如果左边为空,那么表示从第一个开始,如果右边为空,那么表示访问到最后一个,如果两边都为空,则表示全部访问
- 其中一行中我们指定了第一行:1,然后我们想要第一行的所有元素,所以我们把列冒号左右两边的元素都设置为空
- 下图的列的标注有误,应该为:[:,1]
- 其中还可以再添加一个冒号,表示访问的间隔,如最后一个示例所示:两个冒号后面的3表示下一次访问+3,两个冒号后面的2表示下一次访问+2
数据操作实现
- 张量(tensor): 一个数值组成的数组,这个数组可能有多个维度,如下图所示是一个一维的,长度为12的向量
- 把变量放在jupyter的最后一行可以直接把它打印出来
- 可以通过
shape
来访问张量的形状和张量中元素的总数,下图所示表示向量的维度为一,有 12 个元素 numel
为 number of element 表示总共有 12 个元素
- 可以通过
reshape
来更改张量的形状而不改变元素的个数
zeros
: 创造全 0 的张量ones
: 创造全1的张量- 2,3,4 可以理解成 2 个通道,3*4 的矩阵。也可以理解为 2 个,3 行,4 列
- 还可以传入列表来生成张量,需要把全部列表都包含在一个列表里面传入:
- 常见的标准运算符:
+, -, *, /, **
都可以被视为tensor间的按元素运算
- 可以用 cat 来进行指定维度的张量连接
- 可以通过逻辑运算符构建二元张量
- 可以对所有元素求和生成一个只有一个元素的张量
- 张量的广播机制: 一个在实际运用中很容易出错的地方。当两个张量的维度相同且两个张量都有一个是一维的,但是每一维的元素数量不同时,数量较少的那个张量会进行复制自己到和数量较大的数量相同后运算。
- 下图第一维 b 的数量较少,于是 b 又额外复制了两个 [0. 1] 到第一维参与运算。而第二维 a 的数量较少,于是 a 的每个都复制了自身变成了 [0, 0], [1, 1], [2, 2]
- 我们可以指定索引来读取的修改张量:
- 张量操作的内存相关内容: 其中 id 是类似 c 语言指针的东西。下面的第一段代码表示直接用一个相同名字的变量来接收的话是会开辟新的内存的,即使它们名字一样。但是如果是指定所有元素
[ : ]
的话则不会
- 所以如果后续没有再使用 X 的话,可以用
X[ : ]
来进行操作来减少内存的开销:
- 可以用numpy的数组来构建张量:
- 可以将大小为 1 的张量转化为 python 中的标量:
数据预处理实现
- 课堂代码如下:
- 其中沐神并未解释前面几行代码的含义:问gpt结果如下
- 可以用
pandas
里面的read_csv
来读取csv文件:
- 可以用
iloc
来按索引取文件中的内容 - 可以用
fillna
来填充数据中的 NaN 值,可以用mean()
来取数据中的平均值,下面表示用均值填充
- 对于数据中的类别值或者离散值,我们可以将NaN变为一个类别:
- 在经过上述处理后,input 和 output 都变成了数值,现在可以转化成 tensor 了
Q&A
- reshape 和 view 的区别:reshape 是浅拷贝,如果修改 reshape 后的张量,那么被 reshape 的张量也会被修改: