首页 > 其他分享 >如何构建数据集?

如何构建数据集?

时间:2023-05-31 15:56:59浏览次数:45  
标签:样本 解决方案 低质量 分类 问题 如何 构建 数据

图像分类为例:

问题1:数据量不够

解决方案

  • 收集更多数据
  • 数据增强

问题2:低质量的分类

解决方案

  • 验证每个样本的标签是否正确
  • 为分类选择合适的粒度级别

问题3:低质量的数据

解决方案

  • 删除糟糕的图像
  • 考虑技术的长期应用,以及将在生产中用于获取数据的方法

问题4:不平衡的类别

解决方案

  • 收集代表性不足的分类的更多样本
  • 对数据进行 过/欠 采样

问题5:不平衡的数据

解决方案

  • 裁剪或拉伸数据,使其具有与其他样本相同的宽高比或格式
  • 规范化数据,使每个样本的数据都在相同的值范围内

问题6:没有验证集和测试集

解决方案

  • 将数据集拆分为三个:训练集、验证集、测试集。

来源:https://hackernoon.com/stop-feeding-garbage-to-your-model-the-6-biggest-mistakes-with-datasets-and-how-to-avoid-them-3cb7532ad3b7

标签:样本,解决方案,低质量,分类,问题,如何,构建,数据
From: https://www.cnblogs.com/odesey/p/17446374.html

相关文章

  • Oracle 12c/19c PDB数据库配置自动启动
    在Oracle12c/19c多租户环境中,默认情况下,使用startup命令启动数据库实例后,你会发现PDB数据库的状态为MOUNT状态,PDB不会随着CDB启动而启动。如下例子所示:SQL> startupORACLE instance started.Total System Global Area 2432695872 bytesFixed Size          ......
  • MS SQL Server 中的存储过程是一种预编译的代码块,可以接收输入参数并返回输出结果,用于
    MSSQLServer中的存储过程是一种预编译的代码块,可以接收输入参数并返回输出结果,用于完成特定的数据库操作。它们是SQLServer中存储逻辑业务的一种常见方式。下面是存储过程的优势和劣势:优势:更高的性能:存储过程在首次执行时会被编译和优化,然后将编译后的执行计划缓存起来,......
  • Streamsets读取binlog数据实时同步到MySQL
    原文:https://blog.csdn.net/maomaosi2009/article/details/1082932171、说明实时同步binlog数据到MySQL我使用了2种方式,2、方式一第一种方式较为繁琐,数据从binlog流出,经过JS数据解析器将必要的字段解析出来,流入操作选择器,根据具体需要执行的增删改操作选择最后的JDBCProducer,pi......
  • 8万多初中作文大全ACCESS\EXCEL数据库
    作文类的数据库虽然已经有很多,有近万条的,也有2万条的,但今天弄到了小学、中学、高中一个系列的数据,而且最主要的是数据的记录数很多。这份初中作文包含80621条记录,分类也很好。grade字段统计:初一(27301)、初二(27600)、初三(23686)、中考(2034)。type字段统计:小说(8990)、散文诗歌(8985)、写......
  • kibana智能检索发送多次_msearch —— 配置index pattern,同时设置时间段,就知道到底是
    kibanasite/elasticsearch/log-*/_field_stats?level=indices   返回:{"_shards":{"total":600,"successful":600,"failed":0},"indices":{"log-2017.11.22-19-192.168.2.3-93004":{"fields":{"Rec......
  • 神经网络中embedding层作用——本质就是word2vec,数据降维,同时可以很方便计算同义词(各
    Embeddingtflearn.layers.embedding_ops.embedding(incoming,input_dim,output_dim,validate_indices=False,weights_init='truncated_normal',trainable=True,restore=True,reuse=False,scope=None,name='Embedding')Embeddinglayerforase......
  • 如何进行技术性操作实现监控视频资源的汇聚融合
    如何进行技术性操作实现监控视频资源的汇聚融合一、事件背景随着各行业数字化转型的不断推进,视频监控技术在行业内的安防应用及管理支撑日渐增多,但因前期规划不清晰、管理不到位等问题,视频监管系统普遍存在以下问题:1、各部门单位在视频平台建设中以所属领域为单位,系统孤立分散、统......
  • thinkphp结合workerman和gateway实现数据同步
    thinkphp结合workerman和gateway实现数据同步0x10安装扩展composerrequiretopthink/think-worker=2.0.*composerrequireworkerman/gatewayclient此安装仅针对5.1,其他版本根据官方要求安装。client仅针对3.0.8以上,具体看GitHub0x20服务端Gateway0x21config/worker_gate......
  • 各类数据库适配mysql
    1.clickhouse:Array(Date)=TEXTArray(DateTime=TEXTArray(FLoat32)=TEXTArray(FLoat64)=TEXTArray(Int16)=TEXTArray(Int32)=TExTArray(Int64)=TEXTArray(Int8)TExTDateTime=DATETIMEAnray(stringD=TExTArray(UInt16)=INTArav(uInt32)=INTArray(UInt64)=INTArr......
  • java8 stream 数据丢失(错乱)的问题
    说明原因:使用的java8的parallelparrStream是并行的,但是.collect(Collectors.toList())使用了非线程安全的集合。修改办法:修改办法1:把parallelparrStream改为普通的stream;修改办法2:  Collectors.toList()改为并行集合。list.parallelparrStream().map(it......