基于cs231计算机视觉与深度学习
CS231n: Convolutional Neural Networks for Visual Recognition
–Justin Johnson & Serena Yeung & Fei-Fei Li
– Focusing on applications of deep learning to computer vision
前言
计算机视觉简介?
-
什么是视觉?
-
惊人的人类视觉系统
-
运动盲视
-
分割
-
感知
-
-
什么是(计算机)
- 图像(或视频) 感知设备(摄像头) 解释器(电脑) 解释(输出)
-
行业先驱
- David Marr (1945-1980)
- 计算理论:计算的目的是什么?该问题的已知或可以施加的约束是是什么?
- 表达和算法:输入、输出和中间信息是如何表达的?使用哪些算法来计算所期望的结果?
- 硬件实现:表达和算法是如何映射到实际硬件即生物视觉系统或特殊的硅片上的?相反的,硬件的约束怎样才能用于指导表达和算法的选择?随着计算机视觉中使用图形芯片和多核结构日益增长,这个问题再次变得相当重要
- 计算机视觉的目标是什么?
- 跨越“语义鸿沟”建立像素到语义的映射
- 三维信息
- 语义信息提出取来
-
计算机视觉研究进展
- 计算机视觉与动画产业
- 计算机视觉与三维建模
- 计算机视觉与摄影
- 医学成像
- 计算机视觉与生物识别
- 人脸识别
- 指纹识别
- 光学字符识别(OCR)
- 计算机视觉与视觉搜索
- 服饰识别
- 物品识别
- 计算机视觉与穿戴
- Snapstacles
- google project glass
- 计算机视觉在自动驾驶与无人驾驶中的应用
- 计算机视觉与新零售
- 计算机视觉与人机交互
- 在机器人及太空探索中的应用
- 全景拼接
- 三维地形建模
- 障碍物检测、位置追踪
- 医学图像
- 观云识天气
课程介绍
本课程聚焦于视觉识别任务中最为基础、也是最为重要的一个任务——图像分类任务
视觉识别中与图像分类任务相关的任务有很多,其中比较典型的
- 目标检测
- 检测识别对象在哪里
- 图像分割
- 每个像素是不是属于检测对象
- 图像描述
- 图像生成
对于视觉识别任务而言, 目前最为有效的工具就是卷积神经网络
卷积神经网络最早出现在1998年!LeCun et al.
深度学习三要素:
-
算法:Geoffrey Everest Hinton 约书亚·本希奥 杨立昆
-
数据:ImageNet Lifeifei
-
算法:英伟达 老黄
课程目标
- 了解视觉识别任务的难点与现状
- 掌握多种典型的视觉识别任务(图像分类、目标检测、图像分割等)
- 熟悉机器学习的一些基本概念,了解机器学习系统的设计流程(理念)
- 掌握多种深度网络结构(包括全连接神经网络、卷积神经网络、循环神经网络、变分自编码网络、生成对抗网络等)(工具)
课程章节安排
- 图像分类
- 图像分类任务、机器学习所涉及的基础概念以及系统设计的基本范式、线性分类器、全连接神经网络、卷积神经网络、经典网络结构解析、神经网络可视化
- 图像检测
- 图像检测任务分析、评价指标、二阶段检测网络、一阶段检测网络
- 图像分割
- 图像分割任务分析、评价指标、语义分割网络、实例分割网络
- 图像描述
- 循环神经网络、LSTM、注意力机制
- 图像生成
- 深度生成网络(PixelCNN\PixelRNN、变分自编码网络、生成对抗网络)