18个经典开源计算机视觉项目分为以下几类:
图像分类
人脸识别
用GANs进行神经风格转换
场景文本检测
基于DETR的目标检测
语义分割
自动驾驶车辆的车道检测
图像字幕
人体姿势估计项目
基于面部表情的情绪识别
今天主要给大家介绍一下,图像分类:
用于图像分类的开源计算机视觉项目图像分类是计算机视觉中的一项基本任务。在这里,目标是通过为图像指定特定标签来对图像进行分类。我们人类很容易理解和分类我们看到的图像。但对于一台机器来说情况就大不相同了。对机器来说,区分汽车和大象是一项繁重的任务。
以下是两个最著名的图像分类开源项目:
CIFAR-10
CIFAR-10数据集是一组图像,通常用机器学习和计算机视觉算法。它是机器学习研究中最流行的数据集之一。它包含10个不同类别的60000张32×32彩色图像。这些类代表飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。
ImageNet
ImageNet数据集是用于计算机视觉研究的大型可视化数据库。该项目已经手工标注了1400多万张图片,以显示图片中的对象,并且在至少100万张图片中,还提供了目标框。ImageNet包含20000多个类别!
作为初学者,您可以使用Keras或PyTorch从头开始使用神经网络。为了获得更好的结果并提高学习水平,我建议通过VGG-16、Restnet-50、Googlenet等预先训练的模型使用迁移学习。
我建议阅读以下文章,以了解更多有关图像分类的信息:
使用Python代码进行图像分类的前4个预训练模型
为了更好地理解图像分类,我还建议阅读以下论文:
基于深度卷积神经网络的图像网络分类
https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
使卷积网络变得更深
https://arxiv.org/abs/1409.4842
图像识别中的深度残差学习
https://arxiv.org/abs/1512.03385
后面会对里面涉及的内容进行详细讲解。
原文参考链接:
https://www.analyticsvidhya.com/blog/2020/09/18-open-source-computer-vision-projects-beginners/
微信公众号:
下载对应的论文,在公众号中回复:paper