首页 > 其他分享 >TensorFlow04-数据集加载

TensorFlow04-数据集加载

时间:2023-06-17 11:33:06浏览次数:42  
标签:TensorFlow04 tensor data db test tf 数据 加载

1 数据集加载

1.karas.datasets(数据加载)
2.tf.data.Dataset.from_tensor_slices(加载成tensor)

  • shuffle
  • map
  • batch
  • repeat

2 tf.keras.datasets()

image

image

boston_housing:波斯顿房屋价格回归数据集
cifar10:CIFAR10小图像分类数据集
cifar100:CIFAR100小图像分类数据集
fashion_mnist:Fashion-MNIST 数据集.
imdb:IMDB 分类数据集,淘宝好评差评
mnist:MNIST手写数字数据集
reuters:路透社主题分类数据集

2.1 MNIST

这里主要介绍一下MNIST
是一个28281 ,70k/60k/10k
其中70k是所有的,60k是训练,10k是验证
image

import tensorflow as tf
from  tensorflow.keras import datasets
(x,y),(x_test,y_test)=datasets.mnist.load_data()
#这里返回的是一个numpy,(x,y)是训练集,(x_test,y_test)是测试集,x是目标,y是结果

x.shape
#(60000, 28, 28),一共70k

y.shape
#(60000,)

x.min(),x.max(),x.mean()
#(0, 255, 33.318421449829934)
#我们发现这个是0-255,后续我们需要进行标准化,变成[0,1]或者[-1,1],前面我们是用的/255

x_test.shape,y_test.shape
#((10000, 28, 28), (10000,))

y[:4]
#array([5, 0, 4, 1], dtype=uint8)

y_onehot=tf.one_hot(y,depth=10)#这里要把y变成ont_hot码
y_onehot[:2]
#<tf.Tensor: shape=(2, 10), dtype=float32, numpy=
#array([[0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
#       [1., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>

数据集的加载:
image

2.2 cifar10:CIFAR10小图像分类数据集

image
image
我们拿到这个数据之后基本都是numpy类型的,但是我们需要把他变成numpy->Tensor->iter,这是一个很常见的工作,所以我们那个整合到一个API中了,就是tf.data.Dataset

3 使用tf.data.Dataset.from_tensor_slices五步加载数据集

3.1 tf.data.Dataset.from_tensor_slices()

tf.data.Dataset.from_tensor_slices(
tensors, name=None
)
该函数的作用是接收tensor,对tensor的第一维度进行切分,并返回一个表示该tensor的切片数据集.

获取了这个(x,y),(x_test,y_test)之后我们需要一个迭代器对他进行处理
image
这个比较好的地方就是我们可以对两个数据进行转换,tf.data.Dataset.from_tensor_slices((x_test,y_test))这样next(iter(db))[0]就是第一个x_test,next(iter(db))[1]就是第二个label

3.2 使用tf.data.Dataset.from_tensor_slices五步加载数据集

参考文章:传送门

Step0: 准备要加载的numpy数据
Step1: 使用 tf.data.Dataset.from_tensor_slices() 函数进行加载
Step2: 使用 shuffle() 打乱数据
Step3: 使用 map() 函数进行预处理
Step4: 使用 batch() 函数设置 batch size 值
Step5: 根据需要 使用 repeat() 设置是否循环

import tensorflow as tf
from tensorflow import keras
 
def load_dataset():
	# Step0 准备数据集, 可以是自己动手丰衣足食, 也可以从 tf.keras.datasets 加载需要的数据集(获取到的是numpy数据) 
	# 这里以 mnist 为例
	(x, y), (x_test, y_test) = keras.datasets.mnist.load_data()
	
	# Step1 使用 tf.data.Dataset.from_tensor_slices 进行加载
	db_train = tf.data.Dataset.from_tensor_slices((x, y))
	db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))
	
	# Step2 打乱数据
	db_train.shuffle(1000)
	db_test.shuffle(1000)
	
	# Step3 预处理 (预处理函数在下面)
	db_train.map(preprocess)
	db_test.map(preprocess)
 
	# Step4 设置 batch size 一次喂入64个数据
	db_train.batch(64)
	db_test.batch(64)
 
	# Step5 设置迭代次数(迭代2次) test数据集不需要emmm
	db_train.repeat(2)
 
	return db_train, db_test
 
def preprocess(labels, images):
	'''
	最简单的预处理函数:
		转numpy为Tensor、分类问题需要处理label为one_hot编码、处理训练数据
	'''
	# 把numpy数据转为Tensor
	labels = tf.cast(labels, dtype=tf.int32)
	# labels 转为one_hot编码
	labels = tf.one_hot(labels, depth=10)
	# 顺手归一化
	images = tf.cast(images, dtype=tf.float32) / 255
	return labels, images

3.3 .shuffe

这是一个打散函数,就是本来数据集是按照一定顺序的,比如说是0,1,2,3,4,5这样我们需要把这个函数进行打散处理例如变成4,3,5,0,2,1。
image
这里面的数shuffle(10000),我们稍微给大一点就行,没有什么影响的

3.4 .map

这里我们需要首先定义一个preprocess函数,然后我们调用db2=db.map(preprocess)这样我们可以对于db中的数据按照preprocess函数进行全部预处理
image

3.5 .batch

在进行数据操作是我们并不是对数据进行一个一个的处理,而是一个batch一个batch的进行处理,这时候我们需要用的db3=db2.batch(32),这里就是分成32一个batch。
image
处理完成之后我们就可以调用

for x,y in db3:
      里面返回x[b,32,32,3],y[b,10]
      里面的b是那一捆

如果说我们调用

where True:
    x,y=next(iter())

#这样可能会出现异常

image
我们在这里如果用到where True的话会有一个异常
我们也可以指定对这个数据集迭代几次

3.6 .repeat()

db4=db3.repeat(k)
这是迭代k次

image
这样我们在调用

for x,y in db4:
	

的时候就不会迭代一次就推出了
image

1.这里先加载
2.one_hot
3.转化到Dataset中
4.调用预处理
5.调用shuffle和batch

标签:TensorFlow04,tensor,data,db,test,tf,数据,加载
From: https://www.cnblogs.com/lipu123/p/17487085.html

相关文章

  • CMU15445 (Fall 2020) 数据库系统 Project#3 - Query Execution 详解
    前言经过前两个实验的铺垫,终于到了执行SQL语句的时候了。这篇博客将会介绍SQL执行计划实验的实现过程,下面进入正题。总体架构一条SQL查询的处理流程如下为:SQL被Parser解析为抽象语法树ASTBinber将AST转换为Bustub可以理解的更高级的ASTTreerewriter将语法......
  • oracle与MySQL数据库之间数据同步的技术要点
    1,需求描述某ORCALE11生产数据库(下称源数据库),内含近万个表,需要从中每日同步几十个表的数据到mySQL5.7数据库(下称目标数据库)中,供第三方使用。需要对生产数据库影响越小越好。2,技术挑战数据类型不完全一致。从Oracle中导出的建表语句到MySQL数据库中不一定能运行,因为二者的数据......
  • 从0到1打开数据库管理【MySQL】
    小时候玩积木的时候,根据图纸将一块块积木拼成图纸上的模样,随着我们的拼装越发熟练,甚至可以自己创作一个图形。 在数据爆炸时代,数据就像一块块散落的积木,学好数据库管理系统,就可以把数据很好的管理起来,方便我们存取数据。接下来我们来学习数据库的知识~一.认识MySQL 数据库(D......
  • 达梦数据库最新版安装过程
    达梦数据库最新版安装过程背景好久不用达梦数据库了.都是用的两年前安装好的数据库一直在跑(比较稳定,没太宕机)今天有一个新的机器,里面的达梦数据库版本实在是太低了.想着升级一下版本.本地删除重新搭建.但是没想到,两年没用全都忘记了.之前记录的文档也是各种零散.所......
  • 大数据路线
    java基础+语法jdbcmavenmybatis/spring,mvc,boot--了解java项目java复习linuxhadoop/zookeeper/hahive/flume/kafkascala/spark/离线数仓redis/es/hbase/spark实时项目flink/docker/实时数仓cdh/......
  • Redis中的数据结构
    字符串SDS(simpledynamicstring):redis自己构建的一种简单动态字符串,而没有直接使用C语言的字符串(在redis中C语言的字符串仅用在无需对字符串修改的地方,例如日志打印),SDS以空字符'\0'结尾,且不占用len里,会额外占用1字节空间,即使用长度为N+1的空间来表示长度为N的字符串数......
  • 块状数据结构选做
    收集了最近做的一些块状数据结构题,涉及分块,莫队,块状链表等,难度大多不是很高,老少皆宜。QAQP4168[Violet]蒲公英题目链接大意:静态在线区间众数先离散化,预处理出\(cnt_{i,j}\)和\(mode_{i,j}\),分别表示前\(i\)块中数值\(j\)出现的次数和第\(i\)到第\(j\)块的众数。......
  • 2023.6.16 10.数据库备份恢复
    10.数据库备份恢复1.MySQL逻辑备份与恢复1.1数据库完整备份与恢复1.2数据库增量备份与恢复2.MySQL物理备份与恢复2.1数据库完整备份与恢复2.2数据库增量备份与恢复2.3数据库差异备份与恢复3.简单命令进⾏物理备份4.⽣产备份思路与实战 通常数据库备份database数据......
  • 白名单rundll32加载shellcode上线metasploit(nim学习系列)
    白名单rundll32加载shellcode上线metasploit监听metasploitmsfconsole-x"useexploits/multi/handler;setlhost192.168.0.101;setlport443;setpayloadwindows/x64/meterpreter/reverse_tcp;exploit"生成shellcodemsfvenom-pwindows/x64/meterpreter/r......
  • 2023.6.16 09.数据库⽇志管理
    09.数据库⽇志管理1.错误⽇志2.查询⽇志3.慢查询⽇志4.⼆进制⽇志0.⽇志作⽤ 1.排查故障2.性能优化3.安全审计4.统计分析5.数据备份与恢复 1.mysql⽇志管理  2.错误⽇志MySQL的错误⽇志errorlog记录mysqld服务进程启动/关闭或运⾏过遇到......