机器学习训练阶段的Shuffle

时间：2022-08-20 21:11:09浏览次数：43

原文链接：https://blog.csdn.net/qq_19672707/article/details/88864207

一、定义

shuffle在机器学习与深度学习中代表的意思是，将训练模型的数据集进行打乱的操作。
原始的数据，在样本均衡的情况下可能是按照某种顺序进行排列，如前半部分为某一类别的数据，后半部分为另一类别的数据。但经过打乱之后数据的排列就会拥有一定的随机性，在顺序读取的时候下一次得到的样本为任何一类型的数据的可能性相同。

二、使用Shuffle意义

1 Shuffle可以防止训练过程中的模型抖动，有利于模型的健壮性
假设训练数据分为两类，在未经过Shuffle的训练时，首先模型的参数会去拟合第一类数据，当大量的连续数据（第一类）输入训练时，会造成模型在第一类数据上的过拟合。当第一类数据学习结束后模型又开始对大量的第二类数据进行学习，这样会使模型尽力去逼近第二类数据，造成新的过拟合现象。这样反复的训练模型会在两种过拟合之间徘徊，造成模型的抖动，也不利于模型的收敛和训练的快速收敛

2 Shuffle可以防止过拟合，并且使得模型学到更加正确的特征
NN网络的学习能力很强，如果数据未经过打乱，则模型反复依次序学习数据的特征，很快就会达到过拟合状态，并且有可能学会的只是数据的次序特征。模型的缺乏泛化能力。
如：100条数据中前50条为A类剩余50条为B类，模型在很短的学习过程中就学会了50位分界点，且前半部分为A后半部分为B。则并没有学会真正的类别特征。

3 为使得训练集，验证集，测试集中数据分布类似

question：不同类别的data是在一起做shuffle，然后划分数据集；还是分开类别分别做对应的操作？

三、小结

其实Shuffle的作用归结起来就是两点，在针对随机性敏感的数据集上

提升模型质量
提升预测表现

标签：机器,训练,模型,学习,拟合,Shuffle,数据
From： https://www.cnblogs.com/chacaxx/p/16608622.html

"蔚来杯"2022牛客暑期多校训练营6 G-Icon Design
问题描述What'sthefeelingofdesigninganiconforaschoolasaprogrammer?Nowyouhaveachancedoingit!TheiconofNanjingForeignLanguageSchool(NFL......
"蔚来杯"2022牛客暑期多校训练营9
比赛链接：https://ac.nowcoder.com/acm/contest/33194A.CarShow题意：长度为\(n\)的一个序列\(a\)，问有多少个区间中\([1,m]\)的数都出现过。思路：双指针。代码：#......
"蔚来杯"2022牛客暑期多校训练营5 K-Headphones
问题描述Oneday,NIO'shomeisoutofpower.SoNioandhissister,Yasa,wantedtotakesomeheadphones fromthedrawer. Inthedark,Iftheyrandomlytoo......
《机器学习的数学修炼》
目录：第六章线性回归：1.1三种方法实现：importnumpyasnpimportpandasaspdfromscipyimportstatsdf=pd.read_csv("DBS_SingDollar.csv")#......
"蔚来杯"2022牛客暑期多校训练营4 N-Particle Arts
问题描述InaconfinedNIOspace,therearennnNIOparticles,theiii-thofwhichhasaia_iaijouleenergy.TheNIOparticlesareveryspecialastheykeep......
"蔚来杯"2022牛客暑期多校训练营3 C-Concatenation
问题描述NIOwasthekingoftheOINKingdom.HehadNNNchildrenandwantedtoteachthemhowtocount.IntheOINKingdom,pentalisusedincounting,sohis......
"蔚来杯"2022牛客暑期多校训练营2 G-Link with Monotonic Subsequence
问题描述First,let'sreviewsomedefinitions.Feelfreetoskipthispartifyouarefamiliarwiththem.Asequence aaaisanincreasing(decreasing)subsequ......
六、神经网络训练的相关指标参数
1.学习率的设置2.训练集和验证集准确度通过查看训练集和验证集的准确度，也可以侧面反应出过拟合的情况，在训练集准确率和验证集准确率中间的空隙指明了模型过拟合的程度......
五、神经网络训练——数据预处理
1.均值减法它对数据中每个独立特征减去平均值，从几何上可以理解为在每个维度上都将数据云的中心都迁移到原点。在numpy中，该操作可以通过代码X-=np.mean(X,axis=0)实现......
"蔚来杯"2022牛客暑期多校训练营1 G-Lexicographical Maximum
问题描述EibwenisanewbieinPython.Youmightknowthatwhenyouinputanumberinthecommandline,yourPythonprogramwillreceiveastringcontainingth......

机器学习训练阶段的Shuffle

一、定义

二、使用Shuffle意义

三、小结

相关文章

赞助商

阅读排行