12大深度学习开源框架(caffe,tf,pytorch,mxnet等)快速入门项目

标签：12 mxnet 框架模型开源学习 pytorch github com

这是一篇总结文，给大家来捋清楚12大深度学习开源框架的快速入门，这是有三AI的GitHub项目，欢迎大家star/fork。

https://github.com/longpeng2008/yousan.ai

1 概述

1.1 开源框架总览

现如今开源生态非常完善，深度学习相关的开源框架众多，光是为人熟知的就有caffe，tensorflow，pytorch/caffe2，keras，mxnet，paddldpaddle，theano，cntk，deeplearning4j，matconvnet等。

如何选择最适合你的开源框架是一个问题。有三AI在前段时间里，给大家整理了12个深度学习开源框架快速入门的教程和代码，供初学者进行挑选，一个合格的深度学习算法工程师怎么着得熟悉其中的3个以上吧。

下面是各大开源框架的一个总览。

在这里我们还有一些框架没有放上来，是因为它们已经升级为大家更喜欢或者使用起来更加简单的版本，比如从torch->pytorch，从theano到lasagne。另外这些框架都支持CUDA，因此编程语言这里也没有写上cuda。

在选择开源框架时，要考虑很多原因，比如开源生态的完善性，比如自己项目的需求，比如自己熟悉的语言。当然，现在已经有很多开源框架之间进行互转的开源工具如MMDNN等，也降低了大家迁移框架的学习成本。

除此之外还有tiny-dnn，ConvNetJS，MarVin，Neon等等小众，以及CoreML等移动端框架，就不再一一介绍。

总的来说对于选择什么样的框架，有三可以给出一些建议。

(1) 不管怎么说，tensorflow/pytorch你都必须会，这是目前开发者最喜欢，开源项目最丰富的两个框架。

(2) 如果你要进行移动端算法的开发，那么Caffe是不能不会的。

(3) 如果你非常熟悉Matlab，matconvnet你不应该错过。

(4) 如果你追求高效轻量，那么darknet和mxnet你不能不熟悉。

(5) 如果你很懒，想写最少的代码完成任务，那么用keras吧。

(6) 如果你是java程序员，那么掌握deeplearning4j没错的。

其他的框架，也自有它的特点，大家可以自己多去用用。

1.2 如何学习开源框架

要掌握好一个开源框架，通常需要做到以下几点：

(1) 熟练掌握不同任务数据的准备和使用。

(2) 熟练掌握模型的定义。

(3) 熟练掌握训练过程和结果的可视化。

(4) 熟练掌握训练方法和测试方法。

一个框架，官方都会开放有若干的案例，最常见的案例就是以MNISI数据接口+预训练模型的形式，供大家快速获得结果，但是这明显还不够，学习不应该停留在跑通官方的demo上，而是要解决实际的问题。

我们要学会从自定义数据读取接口，自定义网络的搭建，模型的训练，模型的可视化，模型的测试与部署等全方位进行掌握。

因此，我们开设了一个《2小时快速入门开源框架系列》，以一个图像分类任务为基准，带领大家一步一步入门，后续会增加分割，检测等任务。

这是一个二分类任务，给大家准备了500张微笑表情的图片、500张无表情的图片，放置在git工程的data目录下，图片预览如下，已经全部缩放到60*60的大小：

这是无表情的图片：

这是微笑表情的图片。

因此，我们的目标就是利用这500张图片完成好这个图像分类任务。

在下面的所有框架的学习过程中，我们都要完成下面这个流程，只有这样，才能叫做真正的完成了一个训练任务。

另外，所有的框架都使用同样的一个模型，这是一个3层卷积+2层全连接的网络，由卷积+BN层+激活层组成，有的使用带步长的卷积，有的使用池化，差别不大。

输入图像，48*48*3的RGB彩色图。

第一层卷积，通道数12，卷积核3*3。

第二层卷积，通道数24，卷积核3*3。

第三层卷积，通道数48，卷积核3*3。

第一层全连接，通道数128。

第二层全连接，通道数2，即类别数。

网络结构如下：

这是最简单的一种网络结构，优化的时候根据不同的框架，采用了略有不同的方案。因为此处的目标不是为了比较各个框架的性能，所以没有刻意保持完全一致。

2 开源框架

下面我们开始对各个框架进行简述。

2.1 Caffe

github地址：https://github.com/BVLC/caffe。

(1) 概述：

Caffe是伯克利的贾扬清主导开发，以C++/CUDA代码为主，最早的深度学习框架之一，比TensorFlow、Mxnet、Pytorch等都更早，需要进行编译安装。支持命令行、Python和Matlab接口，单机多卡、多机多卡等都可以很方便的使用。目前master分支已经停止更新，intel分支等还在维护，caffe框架已经非常稳定。

(2)caffe的使用通常是下面的流程：

以上的流程相互之间是解耦合的，所以caffe的使用非常优雅简单。

(3) caffe有很明显的优点和缺点。

优点：

以C++/CUDA/python代码为主，速度快，性能高。
工厂设计模式，代码结构清晰，可读性和拓展性强。
支持命令行、Python和Matlab接口，使用方便。
CPU和GPU之间切换方便，多GPU训练方便。
工具丰富，社区活跃。

缺点：

源代码修改门槛较高，需要实现前向反向传播，以及CUDA代码。
不支持自动求导。
不支持模型级并行，只支持数据级并行
不适合于非图像任务。

鉴于caffe的学习有一定门槛，我给新手们提供一个自己录制的视频。

有三说深度学习 - 网易云课堂study.163.com/course/courseMain.htm?share=2&shareId=400000000640089&courseId=1006238015&_trace_c_p_k2_=e3f63523394c47388798148b5aff24e7

其他框架后续也会录制，完整的系列视频在网易云上，见《有三说深度学习》。

同时可以看下面的快速入门文档，以及阅读相关的源代码。

【caffe速成】caffe图像分类从模型自定义到测试mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649029846&idx=1&sn=0c343cfd0ede5c8ae1405bd6348aefad&chksm=871342abb064cbbd7fe31fb3c55f23875f27e48fb8354e9855823b1701f1227c71b4eb00de50&scene=21#wechat_redirect

2.2 Tensorflow

github地址：https://github.com/tensorflow/tensorflow。

(1) 概述

TensorFlow是Google brain推出的开源机器学习库，可用作各类深度学习相关的任务。

TensorFlow = Tensor + Flow，Tensor就是张量，代表N维数组，这与Caffe中的blob是类似的；Flow即流，代表基于数据流图的计算。

(2) 特点

TensorFlow最大的特点是计算图，即先定义好图，然后进行运算，所以所有的TensorFlow代码，都包含两部分：

创建计算图，表示计算的数据流。它做了什么呢？实际上就是定义好了一些操作，你可以将它看做是Caffe中的prototxt的定义过程。
运行会话，执行图中的运算，可以看作是Caffe中的训练过程。只是TensorFlow的会话比Caffe灵活很多，由于是Python 接口，取中间结果分析，Debug等方便很多。

目前tensorflow已经更新到2.0，由于精力原因，笔者的代码仍然以1.x版本为例。

【tensorflow速成】Tensorflow图像分类从模型自定义到测试mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649029846&idx=2&sn=7c2582243bcd8f8b491e8e466a21978f&chksm=871342abb064cbbd0cba24b408ceda2b64a7c8b6baa07f9f8f56cd4d1233caa0b80fe357753e&scene=21#wechat_redirect

2.3 Pytorch

github地址：https://github.com/pytorch/pytorch。

(1) 概述：一句话总结Pytorch = Python + Torch。

Torch是纽约大学的一个机器学习开源框架，几年前在学术界非常流行，包括Lecun等大佬都在使用。但是由于使用的是一种绝大部分人绝对没有听过的Lua语言，导致很多人都被吓退。后来随着Python的生态越来越完善，Facebook人工智能研究院推出了Pytorch并开源。Pytorch不是简单的封装Torch 并提供Python接口，而是对Tensor以上的所有代码进行了重构，同TensorFlow一样，增加了自动求导。

后来Caffe2全部并入Pytorch，如今已经成为了非常流行的框架。很多最新的研究如风格化、GAN等大多数采用Pytorch源码。

(2) 特点

动态图计算。TensorFlow从静态图发展到了动态图机制Eager Execution，pytorch则一开始就是动态图机制。动态图机制的好处就是随时随地修改，随处debug，没有类似编译的过程。
简单。相比TensorFlow1.0中Tensor、Variable、Session等概念充斥，数据读取接口频繁更新，tf.nn、tf.layers、tf.contrib各自重复，Pytorch则是从Tensor到Variable再到nn.Module，最新的Pytorch已经将Tensor和Variable合并，这分别就是从数据张量到网络的抽象层次的递进。有人调侃TensorFlow的设计是“make it complicated”，那么 Pytorch的设计就是“keep it simple”。