首页 > 其他分享 >[数学理论] 不同分布训练集、验证集、测试集处理

[数学理论] 不同分布训练集、验证集、测试集处理

时间:2022-12-19 21:56:10浏览次数:40  
标签:测试 训练 验证 数据量 如上图 数据

date: 2017-10-25 22:27:10 +0800                  
tags:
    - 数学理论
    - 机器学习

目录

相关理论

  • 训练集:用于训练模型的数据集。

  • 开发集(验证集):在通过训练集获得训练模型后,对训练模型的参数进行调整的数据集。

  • 测试集:用于测试最终生成的模型的数据集。

训练集\开发集\测试集确定:

  1. 传统的机器学习领域中,由于收集到的数据量往往不多需要将收集到的数据分为三类:训练集、验证集、测试集。也可以分为两类,不需要开发集集。

比例根据经验不同而不同,这里给出一个例子,如果是三类,可能是训练集:验证集:测试集比例为6:2:2;如果是两类,可能是训练集:测试集比例为7:3。因为数据量不多,所以验证集和测试集需要占的数据比例比较多。

  1. 在大数据时代的机器学习或者深度学习领域中,如果还是按照传统的数据划分方式不是十分合理,因为测试集和验证集用于评估模型和选择模型,所需要的数据量和传统的数据量差不多,但是由于收集到的数据远远大于传统机器学习时代的数据量,所以占的比例也就要缩小。训练集:验证集:测试集比例为98:1:1。如果是两类,也就是相同的道理。

注意:有些人在把数据分类的时候是没有测试集数据,而把实际上的验证集数据叫做测试集数据,这样并不是十分合理,有测试集比较放心,建议把数据分类最好有这个数据集,也就是分为三类数据。但是只要有足够的数据去训练,足够的数据去验证就行了。有时只有训练集和测试集并不是完全不合理。

处理方法

当训练集、验证集(开发集)、测试集来源不同,即分布不同时。需要对其进行处理。

如上图所示:测试集数据来源于网上清晰图像,而验证集、测试集数据来源于业余人士手机拍照照片。

假设网上下载的照片数据集大小为200000,而手机拍摄的照片数据集大小为10000。

有两种处理方式:

  • 一种将网上数据和手机数据混合,然后将数据随机分配给训练集、验证集和测试集。这种方式最后应用效果不好,如上图的1图。

  • 另外一种将网上数据作为训练集,并添加部分手机数据作为训练集。剩余手机数据作为验证集和测试集,如上图的2图。从长期来看,这种处理方式能够带来更好的系统性能。

标签:测试,训练,验证,数据量,如上图,数据
From: https://www.cnblogs.com/luohenyueji/p/16993192.html

相关文章

  • 如何做性能测试
    性能优化的常见概念 吞吐量(TPS,QPS):简单来说就是每秒钟完成的事务数或者查询数。通常吞吐量大表明系统单位时间能处理的请求数越多,所以通常希望TPS越高越好 响应时间:即从......
  • 自动化测试技术笔记(一):前期调研怎么做
    昨天下午在家整理书架,把很多看完的书清理打包好,预约了公益捐赠机构上门回收。整理的过程中无意翻出了几年前的工作记事本,里面记录了很多我刚开始做自动化和性能测试时的......
  • ogg目标端表比源端多一个字段的同步测试
    文档课题:目标端表比源端多一个字段的同步测试.源端:192.168.133.108数据库oracle10.2.0.464位,实例名:orcl目标端:192.168.133.109数据库oracle19.16.0.064位,实例......
  • 4G频段测试
    目的4G模块设置不同频段后,再检测参数是否设置成功 设置频段命令echo-en"AT*BAND=5,0,0,0,1,0,2,2\r\n">/dev/ttyUSB1查询当前频段命令microcom/dev/ttyUSB1或......
  • 测试!
    Hellopackagemainimport"fmt"funcmain(){//定义一个切片文法s:=[]int{1,2,3,4,5,6}printSlice(s)//定义一个切片......
  • WEB Service产生随机验证码图片
     WEB服务端方法:[WebMethod]publicbyte[]GenerateVerifyImage(intnLen,refstringstrKey){intnBmpWidth=13*nLen+5;i......
  • spring依赖注入单元测试:expected single matching bean but found 2
    异常信息:org.springframework.beans.factory.UnsatisfiedDependencyException:Causedby:org.springframework.beans.factory.NoSuchBeanDefinitionException:Nouniqueb......
  • uiautomator2自动化测试
    前言最近公司想要做APP的UI自动化,安排我这边来做。这篇文章主要是作为总结和复习用。总结通过uiautomator2+unitest+数据库来实现app自动化,采用po模式,将app页面和业务逻......
  • 什么是大数据测试
    大数据行业的诉求高质量,数据处理的正确性;高效率,数据处理的及时性;高可用,数据是否具有可恢复性;高主动性,分析产物是否满足业务需求。 大数据测试要了解的面?测试思维......
  • php 滑动图片验证生成
    1.话不多说,直接干货,喜欢的希望大家一键三连<?phpnamespaceApp\Model;classVerifyImage{//浮层坐标数组protected$tailoringArray=[];//浮层......