说起深度学习与CNN,想必大家很熟悉;说起计算机视觉中的目标检测等各个方向,相比大家平时也接触过不少东西了;不过有两个小的方向,虽然相关的论文、项目、甚至研究方法都不多,却是做研究与实际项目落地中非常重要的技术,那就是对数据使用方法的掌握与模型的理解,这是容易被大家忽视的问题,下面我们简单说道说道。
关于数据你应该知道
大数据本来就是一个专门的学科,不过我们这里说的不是专指大数据,而是指在深度学习项目中数据的使用,至少有好几个方向有非常多的内容值得掌握。
数据的获取
数据是深度学习系统的粮食,当前的大部分工业落地模型,都依赖于大量数据进行学习,所以获取是第一步!如果没有超越百万级图片数量的ImageNet数据集的整理提出,深度学习计算机视觉算法的落地进程肯定会被推迟!
那ImageNet数据集从何而来!靠的就是数据爬虫和在线的众筹标注平台!其实大部分图片开源数据集都是依靠数据爬虫获取然后进行整理的,所以爬虫是你必须掌握的。
数据的整理与标注
随着各类基础算法的成熟,决定模型能否上线的关键,很大程度上取决于数据的质量以及数据是否被正确地使用!你和大厂差的往往并不是算法的先进性,而是数据的多少与使用方法!拿到数据之后怎么用,绝对是一个必须要好好思考的问题。举一个简单的例子,数据的来源是很广泛的,不同类型数据的难度不一样,我们在公开数据集中经常会看到hard,medium,easy这样的分级,而在我们的项目中,也是经常需要这样去进行分级的,不同类型的数据其实不能简单地就混在一起使用,这个问题你有好好想过吗?有真的去做了吗?
没有算法能取得百分之百的精度,我们往往是用简单的数据先进行方案认证,中等难度的数据精度作为上线标准,而高难度的数据作为后续的技术攻关,不能因为无法解决一些超级难的案例而否定模型,数据的整理与使用绝对是非常需要工程经验的。
另外一方面,数据的标注虽然不算是高技术壁垒的活儿,但如何提高效率,显然也是值得重视的,相关的行业,可并不小!国内有很多的数据标注基地和公司,比如百度山西数据标注基地。
自动化的标注工具与平台,也是一个非常重要的小方向,像NVIDIA和百度这样的大公司,就从事相关的研究。
数据增强使用
数据增强方法的重要性,我想已经无须再做过多的介绍了,因为做过算法落地、打过竞赛的朋友一定深有体会!同样的模型,因为数据使用方法的不同,精度可能天差地别;数据增强做得好,100张图片也能浪;数据增强做不好,模型妥妥的过拟合;数据增强没选对方法,模型上线肯定出问题。
数据增强方法众多,从有监督到无监督,从单样本到多样本,从基于规则到自动化,是一个需要系统性掌握的领域。
再回过头来看,你对数据的掌握,有多么熟练呢,平时做相关的工作时,花了多少心思重视数据相关的使用技巧呢?
如果觉得有所缺失,我们平台推出了《深度学习之数据使用》的课程,主讲老师为言有三,目标是帮助大家掌握好深度学习中的数据使用,课程价格只有99,顶一顿火锅。
本课程内容包括数据的获取,数据的整理,数据的标注,数据增强,数据的分析等领域,覆盖了深度学习中数据使用的各个方向,大纲如下: