首页 > 其他分享 >关于深度学习框架的忆苦思甜

关于深度学习框架的忆苦思甜

时间:2023-05-01 12:31:58浏览次数:48  
标签:飞桨 框架 PaddlePaddle 学习 深度 卖萌酱 忆苦思甜


作者:卖萌酱

大家好,我是卖萌酱。

对一个深度学习从业者来说,无论你的场景是CV、NLP、Speech还是搜广推现金牛,手头使用最高频的工具莫过于深度学习框架,涵盖了模型训练、模型部署,乃至数据标注、数据清洗等环节。

站在2022年的视角下,回顾曾经被深度学习框架搞崩溃的瞬间,真心觉得现在的框架、工具链已经被打磨的太好用了。。

来吧,忆苦思甜开始!

框架选择:选择困难症患者的噩梦

卖萌酱在入门深度学习时,光在“我要学习哪个深度学习框架”的问题上,就精神内耗了接近一个月。当时框架选择方面的参考资料和分析帖比较匮乏,最后无奈之下,把当时流行的Theano、Caffe、TensorFlow、Torch(注意不是Pytorch)、Keras(当时还不属于TF)全都入门上手了一遍,最后竟然丧心病狂的觉得当时的TF是最好用的。

你以为卖萌酱从此变成了“TF高阶工程师”?

不不,就在卖萌酱好不容易把TF 1.x自认为玩的比较溜的时候,Pytorch的风就袭来了。在师兄师姐的强力安利下,又强行试了试Pytorch,结果由于当时还不成熟,踩了个框架层面的bug,在github上跟开发者反馈后等了好久也没解决,又切回去TF 1.x了。

就在卖萌酱终于要把精力聚焦在业务问题上时,TF2.0又出现了。更新按道理是个好事啊,然而,TF2.0与TF1.0的兼容性,几乎等于没有。。你坚持TF1.0,就要面临将来无人维护的必然结局。你要升级2.0吧,所有积累的TF代码全废了。

TF这点如果当年能像现在的飞桨PaddlePaddle一样,2.X强力兼容1.X,卖萌酱可能就不会抛弃TF了。。

最后,就在卖萌酱终于要彻底拥抱Pytorch的时候,又被大规模分布式训练和模型部署问题给折腾懵了。这时候有大佬跟卖萌酱说了一句:“搞分布式训练和部署,不应该优先考虑PaddlePaddle么?”于是,半信半疑的卖萌酱又跑去试了一把飞桨PaddlePaddle,嗯,真香。。果然从工业界打磨出来的深度学习框架最懂工业界的痛点。

6年的时间里,卖萌酱学习了7个深度学习框架,对耐心差的开发者来说频繁切换框架真的会非常崩溃。

听卖萌酱一句劝,2022年了,如果你要all in做学术,第一时间跑通Arxiv上昨天刚挂的论文中的开源代码,那就无脑选择Pytorch;如果你要all in工业界,既要训练爽又要部署省心,就无脑飞桨PaddlePaddle,尤其在国内,有中文团队本土支持简直不要太爽。

机制纠结:静态图的极客感还是动态图的傻瓜式?

在TF2.0出现以前,很多人都纠结过选择静态图还是动态图。虽然静态图跑起来真的快,但是debug起来又比较痛苦(虽然看起来很极客范),部署的时候又觉得香。当时就在想,如果有一个深度学习框架,能够编程和调试的时候用动态图,等到要大规模训练和部署的时候无需改代码就直接自动转静态图运行就好了。

关于深度学习框架的忆苦思甜_python

卖萌酱这个愿望终于在不久前实现了!

飞桨PaddlePaddle从2.X的版本后,默认开启动态图模式进行模型开发、调试和训练,但是由于Paddle的API实现了“动静统一”,在开发调试完成后,可以直接通过paddle.enable_static()来切换到静态图模式进行模型训练加速和模型部署。简直就是现代深度学习框架的理想态好不好。

为啥我的任务跑的这么慢!GPU利用率这么低!

每次要尝试一个比较大胆的idea,除了要面临方法效果层面的挑战外,新模型新算法的训练、推理效率也经常出奇的低,甚至一些经典的模型,要做大规模数据推理时发现别人3天能跑完的任务,我却要跑7天,完全不知道到底是哪里拖慢了速度。

这时候可能就有老司机跑过来嘲讽:

卖萌酱,你这工程能力是不是不大行啊~~~

刚开始的时候,卖萌酱会尝试往代码里疯狂插入time.time()打印多个点的运行时间,不但插入费时费力,删除也费力,调试粒度还非常粗,有些时间是消耗在GPU上、CPU上还是内存显存通信上也搞不清楚。

不过,最近听飞桨PaddlePaddle框架团队的同学说,Paddle计划在即将发布的2.3版本中推出9个性能分析API,不仅非常易用,而且全面、专业,在训练、推理过程中收集、导出和统计性能数据,到时候定位运行效率瓶颈,实现极限的工程效率优化就不再是一个让人崩溃的事情了!

Sparse运算,深度学习框架之痛

你想象过,把一个dense Tensor替换成sparse Tensor后,模型计算速度会被整整拖慢一倍吗?

没错,卖萌酱几年前曾经为了优化巨型word embedding的显存占用,曾经尝试将其从dense Tensor转成sparse Tensor,结果,naive了。。。不仅没省下多少显存,整个计算速度变成了龟速,就不吐槽是哪个框架了。。。

其实不仅是词向量查询,sparse Tensor和sparse运算在相当多的深度学习应用场景中都有很强的需求。比如计算机视觉中是3D、点云数据类型也非常稀疏,在推荐、广告等业务场景也有大量的稀疏数据和稀疏运算。在这方面,主流深度学习框架要么支持差,容易出奇怪的报错,要么性能无法达到效果,数据处理、模型组网非常复杂,而且运算效率低下。

以至于,在涉及到大量稀疏运算的场景,有实力的大厂甚至搞起了自研框架,或从开源框架拉分支来重点优化稀疏计算。。

不过,这个多年未解的痛点,可能会在飞桨PaddlePaddle即将发布的2.3版本中被大大缓解甚至解决,飞桨PaddlePaddle 2.3对sparse tensor做了全面梳理,预计会新增11个sparse tensor运算的API,常见的COO、CRS格式的Sparse Tensor以及与Dense Tensor互相转换等基础功能可能会得到简洁易用且高性能的实现。

除了以上提到的新特性外,据传即将发布的飞桨PaddlePaddle 2.3还会有一系列充满想象力的重磅升级,比如将傅里叶变换放进神经网络?让科学计算甚至信号处理问题都能接入深度学习框架?

可以确信的是,AI的应用边界将被持续打破,AI落地的想象力也会因飞桨为代表的新一代深度学习框架而变得不同。对框架底层突破与升级感兴趣的小伙伴

标签:飞桨,框架,PaddlePaddle,学习,深度,卖萌酱,忆苦思甜
From: https://blog.51cto.com/xixiaoyao/6238761

相关文章

  • OpenCV加载深度学习模型
    目录1.单张图像(1)构建网络模型(2)图像预处理(3)预测结果2.多张图像本文使用OpenCV加载深度学习模型,实现了对传入的单张图像或多张图像进行预测。步骤:首先读入Caffe框架训练好的模型,然后对输入图像进行预处理操作,并将其传入已构建的网络模型,最后对得到的预测结果进行排序,找......
  • 手写web框架--了解web运行机制。
    第一步--写一个服务端importsocketserver=socket.socket()#默认就是TCP协议server.bind(('127.0.0.1',8080))server.listen(5)whileTrue:conn,addr=server.accept()#三次四次挥手data=conn.recv(1024)#接收消息print(data)conn.se......
  • Django框架——Q查询进阶、ORM查询优化、事务操作、字段类型、字段参数、Ajax、Conten
    Q查询进阶fromdjango.db.modelsimportQq_obj=Q()#1.产生q对象q_obj.connector='or'#默认多个条件的连接是and可以修改为orq_obj.children.append(('pk',1))#2.添加查询条件q_obj.children.append(('price__gt',2000))#支持添加多个res=models.Book.o......
  • 赋值/浅拷贝/深度拷贝
     /*一:赋值二:浅拷贝二:深拷贝*/ 一:赋值#赋值if__name__=='__main__':dict1={'user':'Tom','num':[1,2,3]}#直接赋值:引用对象dict2=dict1print("dict1:0x%x"%id(dict1),dict2)#di......
  • Python之路【第十八篇】:Web框架们
    Python的WEB框架1.BottleBottle是一个快速、简洁、轻量级的基于WSIG的微型Web框架,此框架只由一个.py文件,除了Python的标准库外,其不依赖任何其他模块。 pipinstallbottleeasy_installbottleapt-getinstallpython-bottlewgethttp://bottlepy.org/bottle.py......
  • Python之路【第十五篇】:Web框架
    原笔记链接:https://www.cnblogs.com/wupeiqi/p/4592637.html1.Web框架本质众所周知,对于所有的Web应用,本质上其实就是一个socket服务端,用户的浏览器其实就是一个socket客户端。#!/usr/bin/envpython#coding:utf-8importsocketdefhandle_request(client):......
  • 深度特征融合相关论文(后续更新)
       FCN:FullyconvolutionalNetworksforSemanticSegmentation—CVPR2015ResNet:DeepResidualLearningforImageRecognition—CVPR2016FPN:Featurepyramidnetworksforobjectdetection—CVPR2017DenseNet:DenselyConnectedConvolutionalNetworks—CVP......
  • 数字中国建设2522整体框架
    2023年2月,中共中央、国务院印发《数字中国建设整体布局规划》,数字中国建设有了里程碑意义的顶层设计和整体谋划。作为党的二十大后我国信息化领域的首个全面规划,文件着眼党和国家事业发展全局,首次提出新时代数字中国建设的整体布局,将建设数字中国上升到“是数字时代推进中国式现代......
  • Django框架基础7
    本节主要知识点:一对一(OneToOneFiled)一对多(ForeignKey)多对多(ManyToManyField)F对象查询Q对象查询一、Django数据表关联映射一对一(OneToOneFiled)一对多(ForeignKey)多对多(ManyToManyField)  我们知道涉及到数据表之间的对应关系就会想到一对一、一对多、多对多,在学习My......
  • Pytorch2 如何通过算子融合和 CPU/GPU 代码生成加速深度学习
    动动发财的小手,点个赞吧!PyTorch中用于图形捕获、中间表示、运算符融合以及优化的C++和GPU代码生成的深度学习编译器技术入门计算机编程是神奇的。我们用人类可读的语言编写代码,就像变魔术一样,它通过硅晶体管转化为电流,使它们像开关一样工作,并允许它们实现复杂的逻辑——这......