首页 > 其他分享 >机器学习策略篇:详解处理数据不匹配问题(Addressing data mismatch)

机器学习策略篇:详解处理数据不匹配问题(Addressing data mismatch)

时间:2024-07-16 10:42:42浏览次数:17  
标签:学习策略 Addressing data 音频 噪音 汽车 小时 数据 合成

处理数据不匹配问题

如果您的训练集来自和开发测试集不同的分布,如果错误分析显示有一个数据不匹配的问题该怎么办?这个问题没有完全系统的解决方案,但可以看看一些可以尝试的事情。如果发现有严重的数据不匹配问题,通常会亲自做错误分析,尝试了解训练集和开发测试集的具体差异。技术上,为了避免对测试集过拟合,要做错误分析,应该人工去看开发集而不是测试集。

但作为一个具体的例子,如果正在开发一个语音激活的后视镜应用,可能要看看……想如果是语音的话,可能要听一下来自开发集的样本,尝试弄清楚开发集和训练集到底有什么不同。所以,比如说可能会发现很多开发集样本噪音很多,有很多汽车噪音,这是的开发集和训练集差异之一。也许还会发现其他错误,比如在的车子里的语言激活后视镜,发现它可能经常识别错误街道号码,因为那里有很多导航请求都有街道地址,所以得到正确的街道号码真的很重要。当了解开发集误差的性质时,就知道,开发集有可能跟训练集不同或者更难识别,那么可以尝试把训练数据变得更像开发集一点,或者,也可以收集更多类似的开发集和测试集的数据。所以,比如说,如果发现车辆背景噪音是主要的错误来源,那么可以模拟车辆噪声数据。或者发现很难识别街道号码,也许可以有意识地收集更多人们说数字的音频数据,加到的训练集里。

现在知道这篇博客只给出了粗略的指南,列出一些可以做的尝试,这不是一个系统化的过程,想,这不能保证一定能取得进展。但发现这种人工见解,可以一起尝试收集更多和真正重要的场合相似的数据,这通常有助于解决很多问题。所以,如果的目标是让训练数据更接近的开发集,那么可以怎么做呢?

可以利用的其中一种技术是人工合成数据(artificial data synthesis),讨论一下。在解决汽车噪音问题的场合,所以要建立语音识别系统。也许实际上没那么多实际在汽车背景噪音下录得的音频,或者在高速公路背景噪音下录得的音频。但发现,可以合成。所以假设录制了大量清晰的音频,不带车辆背景噪音的音频,“The quick brown fox jumps over the lazy dog”(音频播放),所以,这可能是的训练集里的一段音频,顺便说一下,这个句子在AI测试中经常使用,因为这个短句包含了从a到z所有字母,所以会经常见到这个句子。但是,有了这个“the quick brown fox jumps over the lazy dog”这段录音之后,也可以收集一段这样的汽车噪音,(播放汽车噪音音频)这就是汽车内部的背景噪音,如果一言不发开车的话,就是这种声音。如果把两个音频片段放到一起,就可以合成出"the quick brown fox jumps over the lazy dog"(带有汽车噪声),在汽车背景噪音中的效果,听起来像这样,所以这是一个相对简单的音频合成例子。在实践中,可能会合成其他音频效果,比如混响,就是声音从汽车内壁上反弹叠加的效果。

但是通过人工数据合成,可以快速制造更多的训练数据,就像真的在车里录的那样,那就不需要花时间实际出去收集数据,比如说在实际行驶中的车子,录下上万小时的音频。所以,如果错误分析显示应该尝试让的数据听起来更像在车里录的,那么人工合成那种音频,然后喂给的机器学习算法,这样做是合理的。

现在要提醒一下,人工数据合成有一个潜在问题,比如说,在安静的背景里录得10,000小时音频数据,然后,比如说,只录了一小时车辆背景噪音,那么,可以这么做,将这1小时汽车噪音回放10,000次,并叠加到在安静的背景下录得的10,000小时数据。如果这么做了,人听起来这个音频没什么问题。但是有一个风险,有可能的学习算法对这1小时汽车噪音过拟合。特别是,如果这组汽车里录的音频可能是可以想象的所有汽车噪音背景的集合,如果只录了一小时汽车噪音,那可能只模拟了全部数据空间的一小部分,可能只从汽车噪音的很小的子集来合成数据。

而对于人耳来说,这些音频听起来没什么问题,因为一小时的车辆噪音对人耳来说,听起来和其他任意一小时车辆噪音是一样的。但有可能从这整个空间很小的一个子集出发合成数据,神经网络最后可能对这一小时汽车噪音过拟合。不知道以较低成本收集10,000小时的汽车噪音是否可行,这样就不用一遍又一遍地回放那1小时汽车噪音,就有10,000个小时永不重复的汽车噪音来叠加到10,000小时安静背景下录得的永不重复的语音录音。这是可以做的,但不保证能做。但是使用10,000小时永不重复的汽车噪音,而不是1小时重复学习,算法有可能取得更好的性能。人工数据合成的挑战在于,人耳的话,人耳是无法分辨这10,000个小时听起来和那1小时没什么区别,所以最后可能会制造出这个原始数据很少的,在一个小得多的空间子集合成的训练数据,但自己没意识到。

这里有人工合成数据的另一个例子,假设在研发无人驾驶汽车,可能希望检测出这样的车,然后用这样的框包住它。很多人都讨论过的一个思路是,为什么不用计算机合成图像来模拟成千上万的车辆呢?事实上,这里有几张车辆照片(下图后两张图片),其实是用计算机合成的,想这个合成是相当逼真的,想通过这样合成图片,可以训练出一个相当不错的计算机视觉系统来检测车子。

不幸的是,比如这是所有车的集合,如果只合成这些车中很小的子集,对于人眼来说也许这样合成图像没什么问题,但的学习算法可能会对合成的这一个小子集过拟合。特别是很多人都独立提出了一个想法,一旦找到一个电脑游戏,里面车辆渲染的画面很逼真,那么就可以截图,得到数量巨大的汽车图片数据集。事实证明,如果仔细观察一个视频游戏,如果这个游戏只有20辆独立的车,那么这游戏看起来还行。因为是在游戏里开车,只看到这20辆车,这个模拟看起来相当逼真。但现实世界里车辆的设计可不只20种,如果用着20量独特的车合成的照片去训练系统,那么的神经网络很可能对这20辆车过拟合,但人类很难分辨出来。即使这些图像看起来很逼真,可能真的只用了所有可能出现的车辆的很小的子集。

所以,总而言之,如果认为存在数据不匹配问题,建议做错误分析,或者看看训练集,或者看看开发集,试图找出,试图了解这两个数据分布到底有什么不同,然后看看是否有办法收集更多看起来像开发集的数据作训练。

谈到其中一种办法是人工数据合成,人工数据合成确实有效。在语音识别中。已经看到人工数据合成显著提升了已经非常好的语音识别系统的表现,所以这是可行的。但当使用人工数据合成时,一定要谨慎,要记住有可能从所有可能性的空间只选了很小一部分去模拟数据。

标签:学习策略,Addressing,data,音频,噪音,汽车,小时,数据,合成
From: https://www.cnblogs.com/oten/p/18304694

相关文章

  • 【DG】DataGuard动态性能视图及日志传输/应用服务说明
    一、DataGuard相关动态性能视图 序号 动态性能视图名称 说明1 v$database 查询打开模式,角色,保护模式,保护级别2 v$managed_standby 备库查询进程情况,RFS、MRP03 v$standby_log 查看standbyredolog4 v$archive_dest_statu......
  • 电力需求预测挑战赛——Datawhale AI 夏令营第2期【从零入门AI竞赛之机器学习】
    赛事官网https://challenge.xfyun.cn/h5/detail?type=electricity-demand&ch=dw24_uGS8Gs学习者手册https://exn8g66dnwu.feishu.cn/docx/T7WGd7goqowRvFxwoApclo9Pn0bTask1——传统时序模型(2024/7/14)阶段要求根据文档跑通提交并拿下第一个分数;学习相关知识点,理解赛题。......
  • 【Dataset】Maple-IDS - Network Security Malicious Traffic Detection Dataset
    IntroductiontotheDatasetTheMaple-IDSdatasetisanetworkintrusiondetectionevaluationdatasetdesignedtoenhancetheperformanceandreliabilityofanomaly-basedIntrusionDetectionSystems(IDS)andIntrusionPreventionSystems(IPS).Ascybera......
  • Datawhale2024年AI夏令营第二期:CV图像--学习笔记
       Deepfake攻防--图像赛道是该夏令营第二期的学习活动(“CV图像”方向),是于蚂蚁集团举办的“外滩大会-全球Deepfake攻防挑战赛”开展的实践学习——适合想入门、了解并实践,关于深度学习和计算机视觉方向的学习者参与。此次学习活动的速通手册如下:从零入门CV图像竞赛(Deepf......
  • Datawhale AI夏令营第二期——机器学习 电力需求预测挑战赛
    #AI夏令营#Datawhale夏令营一种基于LSTM的电力暴力预测1.赛事简介随着全球经济的快速发展和城市化进程的加速,电力系统面临着越来越大的挑战。电力需求的准确预测对于电网的稳定运行、能源的有效管理以及可再生能源的整合至关重要。然而,电力需求受到多种因素的影响,为了提高......
  • 电力需求预测挑战赛(机器学习方向)--task1 #Datawhale AI 夏令营
    一、概念电力需求的准确预测对于电网的稳定运行、能源的有效管理以及可再生能源的整合至关重要。【训练时序预测模型助力电力需求预测】二、赛题任务给定多个房屋对应电力消耗历史N天的相关序列数据等信息,预测房屋对应电力的消耗。三、赛题数据简介1、赛题数据由训练集......
  • 使用Spring Data JPA进行数据库操作
    使用SpringDataJPA进行数据库操作大家好,我是微赚淘客系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿!1.简介SpringDataJPA是Spring框架提供的一种用于简化数据库操作的技术,基于JPA(JavaPersistenceAPI)规范,通过简单的接口和方法,可以轻松地实现对数据库的增删改查操作......
  • Datawhale AI 夏令营 从零入门CV图像竞赛(Deepfake攻防)
    DatawhaleAI夏令营从零入门CV图像竞赛(Deepfake攻防)Step0:注册Kaggle如果有Kaggle账户,直接登录即可,无需处理此步骤使用Edge浏览器安装HeaderEditor插件(点击即可跳转)链接:https://microsoftedge.microsoft.com/addons/detail/header-editor/afopnekiinpekooejpchnkg......
  • gRPC高级——Metadata机制
    什么是MetadatagRPC让我们可以像本地调用一样实现远程调用,对于每一次的RPC调用中都可能会有一些有用的数据,而这些数据就可以通过metadata来传递。metadata是以key-value的形式存储数据的,其中key是string类型,而value是[]string,即一个字符串数组类型。metadata使得client和s......
  • 信创里程碑:TapData 与 OceanBase 产品完成兼容互认证,加速推进金融等传统行业自主创新
    近日,深圳钛铂数据有限公司(以下简称钛铂数据)自主研发的钛铂实时数据平台(TapDataLiveDataPlatform,TapDataLDP)与北京奥星贝斯科技有限公司(以下简称奥星贝斯)OceanBase数据库软件完成并通过相互兼容性测试认证。测试结果显示,TapDataLDPV3与OceanBaseV4系列产品完全兼容,整体......