TFRecord文件训练速度调优

时间：2023-09-12 15:24:28浏览次数：40

标签：TFRecord num 训练文件 batch parallel 调优 ds size

TFRecord文件训练速度调优

问题描述：
- 背景：
  - tfrecord文件由spark生成：
```
 res_df.write.format("tfrecords").option("recordType","Example")mode("overwrite").save("path/")
```
  - 大约有90个特征，其中有int型、string型、单值序列型、多值序列型（保存时拍平为一维列表了，读取时指定二维维度
  - 解析时使用tfrecorddataset进行解析
  - 训练时将使用fit()接口，将tfrecorddataset传入
  - tensorflow版本：2.6.0
- 问题：
  - 速度缓慢
  - GPU利用率低

调优关键代码：

ds = tf.data.TFRecordDataset(p)		# p为tfrecord文件路径，因为只有一个文件，不要设置num_parallel_reads
ds = ds.shuffle(ds_batch_size)		# shuffle_size设置为batch_size
ds = ds.batch(ds_batch_size, num_parallel_calls=64)	# 先batch，再map解析函数，num_parallel_calls设置为核心数，不是线程数
ds = ds.map(m_decode_fn, num_parallel_calls=64)		# 一样，设置为核心数，超过会争夺资源，引发阻塞
# ds = ds.prefetch(1)
ds = ds.apply(tf.data.experimental.prefetch_to_device('/gpu:0', buffer_size=4))	# prefetch改为直接送到GPU，可以减少大量传输时间

其他可关注点：
- 使用profile+tensorboard可以看到整个数据流各个环节的时间耗时，并且可以得到部分优化建议。
- 可以将单个tfrecord文件分为多个tfrecord文件，然后使用num_parallel_reads>1的方法去多线程地读。我这里没啥区别，主要耗时还是在解析和cpu-gpu数据复制上。
- 数据集比较小（至少内存装得下），可以试试cache()方法。

标签：TFRecord,num,训练,文件,batch,parallel,调优,ds,size
From： https://www.cnblogs.com/strolling-leisurely/p/17696269.html

springboot、jvm调优（设置运行的参数）
1、工具jdk自带的工具位置：找到窗口->应用程序2、问题和方式在SpringBoot项目中，调优主要通过配置文件和配置JVM的参数的方式进行。2.1springboot修改配置文件调优关于修改配置文件application.properties。https://docs.spring.io/spring-boot/docs/current/reference/ht......
代码随想录算法训练营第五天
代码随想录算法训练营第五天|LeetCode242(有效的字母异位词)LeetCode349(两个数组的交集)LeetCode202(快乐数)LeetCode1(两数之和)242:有效的字母异位词LeetCode242(有效的字母异位词)classSolution{publicbooleanisAnagram(Strings,Stringt){......
vp 训练记录
三人一机在Dilute的博客上主要记一下我和zcw的两人两机场9.9今天和zcwvp了22年的沈阳站开场一看D发现是个nt题，一发过了。然后张发现C也是个nt题，也一发过了然后我去开L题，题意比较难理解，花了好长时间看题（事实证明还是看错了一个小地方），看到n,m<=7就猜到是......
来了！“自助式”训练定制的数字人服务
想拥有一个“数字分身”吗？给你一个终身免费续期的特权。定制周期长？训练、运营成本高？成片效果生硬？无法应用于实际场景？随着AIGC技术的快速发展，虚拟数字人的生成效率不断提高，训练成本逐渐降低，与此同时，生成效果也朝着更加精细化方向发展。越来越多的“数字人”正在走入......
【腾讯云 Cloud Studio 实战训练营】 - 云IDE编程之旅化繁为简
csdn首发文章链接一、前言：随着云计算产业的发展，各种基于云端的IDE相继出现。相比于传统的IDE，云端IDE可以更大程度的提升用户工作的效率。腾讯云与国内领先的一站式软件研发平台CODING联合推出一款完全基于云端的IDE：CloudStudio。作为一款在线云端开发工具，它可以帮助用户减......
大规模分布式训练并行模式
大规模分布式训练并行模式数据并行DataParallelism 模型在不同GPU上具有完全一致的副本，包括模型参数、模型梯度、模型优化器状态，这些都是完全相同的。唯一不同的是不同GPU上处理的数据是不同的，在每次梯度更新时，对所有数据产生梯度之和求平均，然后更新。管道并行PipelineP......
代码随想录算法训练营-回溯算法|491.递增子序列
491. 递增子序列不对原数组进行排序，利用set对同层的子集进行去重。1classSolution:2deffindSubsequences(self,nums):3result=[]4path=[]5self.backtracking(nums,0,path,result)6returnresult78......
JVM调优篇：探索Java性能优化的必备种子面试题
JVM内存模型首先面试官会询问你在进行JVM调优之前，是否了解JVM内存模型的基础知识。这是一个重要的入门问题。JVM内存模型主要包括程序计数器、堆、本地方法栈、Java栈和方法区（1.7之后更改为元空间，并直接使用系统内存）。正常堆内存又分为年轻代和老年代。在Java虚拟机中，年轻代用于存......
代码随想录算法训练营第四天| 24. 两两交换链表中的节点, 19.删除链表的倒数第N个结点
24.两两交换链表中的节点mydemo（超时）/***Definitionforsingly-linkedlist.*structListNode{*intval;*ListNode*next;*ListNode():val(0),next(nullptr){}*ListNode(intx):val(x),next(nullptr){}*ListNode(intx,Lis......
2023-09-05 图论专项训练（五）
我TM但凡有点水平也不至于一点水平没有吧。——每日感想T1距离/P4162[SCOI2009]最长距离这道题本质上是一道十分弱智的搜索题，无论是开DFS还是开BFS还是开BDFS都能做。本人在这里不建议使用使用deque进行BFS，理由是运行速度比较慢，稍有不慎就见祖宗了。我在这里使用DFS,但是纯......

TFRecord文件训练速度调优

TFRecord文件训练速度调优

相关文章

赞助商

阅读排行