首页 > 其他分享 >【杂谈】关于数据和模型,初学者极容易忽视的两个问题!

【杂谈】关于数据和模型,初学者极容易忽视的两个问题!

时间:2022-10-12 13:02:55浏览次数:55  
标签:模型 深度 杂谈 学习 初学者 使用 数据 极容易 标注


【杂谈】关于数据和模型,初学者极容易忽视的两个问题!_计算机视觉

说起深度学习与CNN,想必大家很熟悉;说起计算机视觉中的目标检测等各个方向,相比大家平时也接触过不少东西了;不过有两个小的方向,虽然相关的论文、项目、甚至研究方法都不多,却是做研究与实际项目落地中非常重要的技术,那就是对数据使用方法的掌握与模型的理解,这是容易被大家忽视的问题,下面我们简单说道说道。

关于数据你应该知道

大数据本来就是一个专门的学科,不过我们这里说的不是专指大数据,而是指在深度学习项目中数据的使用,至少有好几个方向有非常多的内容值得掌握。

数据的获取

数据是深度学习系统的粮食,当前的大部分工业落地模型,都依赖于大量数据进行学习,所以获取是第一步!如果没有超越百万级图片数量的ImageNet数据集的整理提出,深度学习计算机视觉算法的落地进程肯定会被推迟!

【杂谈】关于数据和模型,初学者极容易忽视的两个问题!_大数据_02

那ImageNet数据集从何而来!靠的就是数据爬虫和在线的众筹标注平台!其实大部分图片开源数据集都是依靠数据爬虫获取然后进行整理的,所以爬虫是你必须掌握的。

数据的整理与标注

随着各类基础算法的成熟,决定模型能否上线的关键,很大程度上取决于数据的质量以及数据是否被正确地使用!你和大厂差的往往并不是算法的先进性,而是数据的多少与使用方法!拿到数据之后怎么用,绝对是一个必须要好好思考的问题。举一个简单的例子,数据的来源是很广泛的,不同类型数据的难度不一样,我们在公开数据集中经常会看到hard,medium,easy这样的分级,而在我们的项目中,也是经常需要这样去进行分级的,不同类型的数据其实不能简单地就混在一起使用,这个问题你有好好想过吗?有真的去做了吗?

【杂谈】关于数据和模型,初学者极容易忽视的两个问题!_算法_03

没有算法能取得百分之百的精度,我们往往是用简单的数据先进行方案认证,中等难度的数据精度作为上线标准,而高难度的数据作为后续的技术攻关,不能因为无法解决一些超级难的案例而否定模型,数据的整理与使用绝对是非常需要工程经验的。

另外一方面,数据的标注虽然不算是高技术壁垒的活儿,但如何提高效率,显然也是值得重视的,相关的行业,可并不小!国内有很多的数据标注基地和公司,比如百度山西数据标注基地。

【杂谈】关于数据和模型,初学者极容易忽视的两个问题!_大数据_04

自动化的标注工具与平台,也是一个非常重要的小方向,像NVIDIA和百度这样的大公司,就从事相关的研究。

【杂谈】关于数据和模型,初学者极容易忽视的两个问题!_python_05

数据增强使用

数据增强方法的重要性,我想已经无须再做过多的介绍了,因为做过算法落地、打过竞赛的朋友一定深有体会!同样的模型,因为数据使用方法的不同,精度可能天差地别;数据增强做得好,100张图片也能浪;数据增强做不好,模型妥妥的过拟合;数据增强没选对方法,模型上线肯定出问题。

【杂谈】关于数据和模型,初学者极容易忽视的两个问题!_python_06

数据增强方法众多,从有监督到无监督,从单样本到多样本,从基于规则到自动化,是一个需要系统性掌握的领域。

再回过头来看,你对数据的掌握,有多么熟练呢,平时做相关的工作时,花了多少心思重视数据相关的使用技巧呢?

如果觉得有所缺失,我们平台推出了《深度学习之数据使用》的课程,主讲老师为言有三,目标是帮助大家掌握好深度学习中的数据使用,课程价格只有99,顶一顿火锅。

本课程内容包括数据的获取,数据的整理,数据的标注,数据增强,数据的分析等领域,覆盖了深度学习中数据使用的各个方向,大纲如下:

【杂谈】关于数据和模型,初学者极容易忽视的两个问题!_编程语言_07


标签:模型,深度,杂谈,学习,初学者,使用,数据,极容易,标注
From: https://blog.51cto.com/u_14122493/5749494

相关文章

  • 所有的Python “爬虫“ 初学者,都应该看这篇文章!
    前段时间,黄同学为大家写了一篇​​爬虫​​保姆级文章,大家非常喜欢。链接如下:3000字“婴儿级”爬虫图文教学|手把手教你用Python爬取“实习网”!这篇文章其实已经是基础......
  • 职场杂谈
    认真,是对自己的人生负责:https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9725703238512311857%22%7D&n_type=1&p_from=3当老板,想让员......
  • 闪存技术-ARM环境配置杂谈
    闪存技术-ARM环境配置杂谈参考文献链接https://mp.weixin.qq.com/s/4bl0lk8XMB2VPcdHQq76sQhttps://mp.weixin.qq.com/s/BF9UGnz1yeiAtWgk-XBTSQhttps://mp.weixin.qq.......
  • 玩转树莓派[11面向初学者的20个树莓派命令]
    title:玩转树莓派[11:面向初学者的20个树莓派命令]excerpt:转载~tags:[raspberry,基地2.0,系统]categories:[学习,raspberry]index_img:https://picture-stor......
  • java初步学习 方法的三种格式(基于黑马的课进行自学,初学者,不喜勿喷)9
    初步学习方法基本概念方法是程序(mathod)中最小的执行单元我们可以自己创建一个方法,并在其中写入想要执行的代码(将代码打包),这样可以重复使用,可以提高代码的复用性与可维......
  • 旁路电容与去耦电容——作为硬件设计初学者整理的一些散碎的知识点
    在使用一些芯片的时候,在芯片的电源引脚处,经常看到有两个并联的电容连接在引脚上,并联电容的一端接电源电压,另一端接地。或是只有一个电容进行接地。 从一......
  • 杂谈
    距离上次发表博客记录自己的C语言学习已经有了25天了,期间陆陆续续才学习了一点点知识。上了大学以后,更他妈放飞了。自律性差的人,大学就是最毒的毒药。我很恐惧,我已经适应了......
  • 面向初学者的 Android 应用开发基础知识
    Android是一个基本上为手机构建的操作系统。它基于LinuxKernel和其他开源软件,由Google开发。它用于智能手机和平板电脑等触摸屏移动设备。但现在这些都用于AndroidAuto......
  • 初学者了解的Java!
    简单看JavaJava的诞生和发展Java是由SunMicrosystems公司于1995年5月推出的Java面向对象程序设计语言和Java平台的总称。由JamesGosling和同事们共同研发......
  • 稀疏化-手机camera-芯片-汽车杂谈
    稀疏化-手机camera-芯片-汽车杂谈参考文献链接https://mp.weixin.qq.com/s/H02sBjfq2R1yOg2FB08UjQhttps://mp.weixin.qq.com/s/utD7ux7WV_AX_bFwHj191ghttps://mp.wei......