【杂谈】关于数据和模型，初学者极容易忽视的两个问题！

【杂谈】关于数据和模型，初学者极容易忽视的两个问题！_计算机视觉

说起深度学习与CNN，想必大家很熟悉；说起计算机视觉中的目标检测等各个方向，相比大家平时也接触过不少东西了；不过有两个小的方向，虽然相关的论文、项目、甚至研究方法都不多，却是做研究与实际项目落地中非常重要的技术，那就是对数据使用方法的掌握与模型的理解，这是容易被大家忽视的问题，下面我们简单说道说道。

关于数据你应该知道

大数据本来就是一个专门的学科，不过我们这里说的不是专指大数据，而是指在深度学习项目中数据的使用，至少有好几个方向有非常多的内容值得掌握。

数据的获取

数据是深度学习系统的粮食，当前的大部分工业落地模型，都依赖于大量数据进行学习，所以获取是第一步！如果没有超越百万级图片数量的ImageNet数据集的整理提出，深度学习计算机视觉算法的落地进程肯定会被推迟！

【杂谈】关于数据和模型，初学者极容易忽视的两个问题！_大数据_02

那ImageNet数据集从何而来！靠的就是数据爬虫和在线的众筹标注平台！其实大部分图片开源数据集都是依靠数据爬虫获取然后进行整理的，所以爬虫是你必须掌握的。

数据的整理与标注

随着各类基础算法的成熟，决定模型能否上线的关键，很大程度上取决于数据的质量以及数据是否被正确地使用！你和大厂差的往往并不是算法的先进性，而是数据的多少与使用方法！拿到数据之后怎么用，绝对是一个必须要好好思考的问题。举一个简单的例子，数据的来源是很广泛的，不同类型数据的难度不一样，我们在公开数据集中经常会看到hard，medium，easy这样的分级，而在我们的项目中，也是经常需要这样去进行分级的，不同类型的数据其实不能简单地就混在一起使用，这个问题你有好好想过吗？有真的去做了吗？

【杂谈】关于数据和模型，初学者极容易忽视的两个问题！_算法_03

没有算法能取得百分之百的精度，我们往往是用简单的数据先进行方案认证，中等难度的数据精度作为上线标准，而高难度的数据作为后续的技术攻关，不能因为无法解决一些超级难的案例而否定模型，数据的整理与使用绝对是非常需要工程经验的。

另外一方面，数据的标注虽然不算是高技术壁垒的活儿，但如何提高效率，显然也是值得重视的，相关的行业，可并不小！国内有很多的数据标注基地和公司，比如百度山西数据标注基地。

【杂谈】关于数据和模型，初学者极容易忽视的两个问题！_大数据_04

自动化的标注工具与平台，也是一个非常重要的小方向，像NVIDIA和百度这样的大公司，就从事相关的研究。

【杂谈】关于数据和模型，初学者极容易忽视的两个问题！_python_05

数据增强使用

数据增强方法的重要性，我想已经无须再做过多的介绍了，因为做过算法落地、打过竞赛的朋友一定深有体会！同样的模型，因为数据使用方法的不同，精度可能天差地别；数据增强做得好，100张图片也能浪；数据增强做不好，模型妥妥的过拟合；数据增强没选对方法，模型上线肯定出问题。

【杂谈】关于数据和模型，初学者极容易忽视的两个问题！_python_06

数据增强方法众多，从有监督到无监督，从单样本到多样本，从基于规则到自动化，是一个需要系统性掌握的领域。

再回过头来看，你对数据的掌握，有多么熟练呢，平时做相关的工作时，花了多少心思重视数据相关的使用技巧呢？

如果觉得有所缺失，我们平台推出了《深度学习之数据使用》的课程，主讲老师为言有三，目标是帮助大家掌握好深度学习中的数据使用，课程价格只有99，顶一顿火锅。

本课程内容包括数据的获取，数据的整理，数据的标注，数据增强，数据的分析等领域，覆盖了深度学习中数据使用的各个方向，大纲如下：

【杂谈】关于数据和模型，初学者极容易忽视的两个问题！_编程语言_07

标签：模型,深度,杂谈,学习,初学者,使用,数据,极容易,标注
From： https://blog.51cto.com/u_14122493/5749494

【杂谈】关于数据和模型，初学者极容易忽视的两个问题！

相关文章

赞助商

阅读排行