近年来,Serverless架构逐渐被更多的开发者所认识、接受,逐渐被应用到了更多领域,其中包括如今非常热门的机器学习领域。
与其他领域不同的是,在Serverless架构上进行人工智能相关项目的应用实践具有极大的特殊性。
·人工智能领域的模型体积普遍较大,一般情况下模型加载需要比较长的时间,这就导致在Serverless架构上,机器学习项目的冷启动问题更为严重。
·目前来看,普遍的Serverless架构或者说大部分公有云FaaS产品很少支持GPU实例(阿里云函数计算也是在2021年的云栖大会才发布相关的能力支持),这给在Serverless架构上部署人工智能项目造成不小阻碍。
·人工智能项目通常会有比较多的依赖,而这些依赖等相关内容所占用的空间相对来说比较大。就目前来看,各个公有云FaaS产品所支持的代码包大小通常为50MB~200MB,实例内所拥有的整体空间大小为500MB,这就导致如果想要将一个稍具规模的人工智能项目部署到线上,就需要NAS等额外的产品进行配合,在一定程度上大大增加了项目的部署难度、调试难度等。
·由于Serverless架构通常是无状态的,所以在Serverless架构上进行AI模型的更新迭代相比传统的云主机架构要复杂,更困难。
综上所述,若想在Serverless架构上更好地进行机器学习相关项目的实践,就需要从开发、部署、冷启动优化以及GPU实例的融入等多个维度进行研究与探索。
1 项目的开发与部署
在基于Serverless架构进行机器学习项目实战时,最基础的就是项目开发和部署阶段的相关工作,其中包括以下几个重要内容。
·业务逻辑与模型拆离:由于机器学习算法通常需要比较多的资源,包括GPU资源、内存资源等,所以我们在Serverless架构上部署机器学习项目时,为了保证性能与成本的平衡,会将业务逻辑与模型的训练和推理部分分别部署。这可能会增加一个或多个函数,但可进一步实现降本提效。
·模型加载与实例复用:由于Serverless架构是无状态的,因此每次请求时相对应的方法会被重复调用。这就导致方法内的模型加载逻辑会在每次请求时被触发,严重影响业务的整体性能。我们可以利用实例复用特性,在初始化实例时进行相关模型加载,以最大限度地降低模型频繁加载带来的性能瓶颈。
·模型对象的释放与清理:尽管Serverless架构是无状态的,但是这并不等于前后两次执行毫无关联。在实例复用的前提下,前一次执行极有可能对后一次执行产生影响,尤其在人工智能项目中,某些对象、缓存资源复用时往往会受到前一次的干扰,进而影响本次推理的效果,所以某些对象或资源在使用过后需要被释放或清理。
·开发者工具加持机器学习项目:由于在Serverless架构下,云厂商所提供的实例环境与开发者的开发环境往往存在着较大差异,很多项目在本地进行开发、调试并部署到Serverless架构后无法找到对应的依赖或者安装包等。这种情况在Python项目中,尤其是涉及科学计算、机器学习等相关领域时,极为常见。所以与Serverless开发者工具的紧密结合,对机器学习项目的开发和部署有巨大帮助。
2 冷启动优化
即使不针对机器学习项目,不针对人工智能领域,Serverless架构下的冷启动问题依旧是值得关注和亟待解决的。这不仅需要云厂商侧的努力,还需要开发者侧的优化。
·减小交付物的体积:在Serverless架构的整个冷启动过程中,代码包的拉取、解压等流程相对来说是不可控的部分,因为代码包和容器镜像的体积决定了代码包拉取的效率,而压缩包中的文件数量,则可能决定冷启动效率。所以,如何尽可能地减小代码包的大小,进一步提升性能就成为非常重要的事情,其中包括减少非必要依赖的引用,引入相对轻量化的打包工具等。
·实例复用与单实例多并发:从实例角度出发,实例的复用以及处理好部分资源的初始化逻辑,在一定程度上可以有效地降低冷启动带来的影响;同时通过部分厂商提供的单实例多并发能力,在一定程度上可以有效地降低频繁加载模型而带来的冷启动影响。
·预留实例与性能提升:即使从复用、单实例多并发以及减小代码包角度出发,开发者可以进行冷启动的优化,但是并不能真正消除冷启动。尤其在突然高并发条件下,冷启动带来的危害显而易见。云厂商提供的预留实例功能,在一定程度上可以降低冷启动带来的危害。
·加载代码与挂载资源:很多时候,机器学习项目所需要依赖的资源非常多,所需要的模型文件也比较大,所以通过挂载硬盘等方式进行模型文件的加载、依赖的引入比单纯通过压缩包的下载、解压及装载效果好。但是,依赖与模型等文件通过硬盘挂载等手段引入项目在一定程度上会让项目丧失一些特性,例如版本控制与灰度等能力。
3 训练与推理性能优化
在Serverless架构上的机器学习项目包括两类:一类是在Serverless架构上进行机器学习项目的训练,另一类是在Serverless架构上进行机器学习项目的推理。无论训练还是推理,其所需要的资源相对来说是比较多的。此时,我们需要根据云厂商的实际情况进行资源选型。
·在具备GPU资源的前提下,可以优先选择Serverless的GPU实例,通过GPU实例进行项目的训练和推理都是相对科学与常见的。
·在不具备GPU资源的前提下,可以通过CPU模式进行项目的训练和推理,此时可以考虑选择性能实例进行相关的业务逻辑实现,以尽可能地保证整体性能和效率。
·在函数计算平台不具备GPU资源与性能实例的前提下,可以通过其他Serverless化的服务进行相关的训练和推理,而不需要过于固执地依赖函数计算平台实现相对应的业务逻辑。
4 模型更新迭代方案
在Serverless架构上进行机器学习项目的部署和应用时,我们会遇到模型的更新迭代,需完成以下两个层面的操作。
1)手动更新迭代:当训练集有了比较大的完善和改进,反馈机制有了比较大规模的反馈后,手动对模型文件进行更新,并通过开发者工具将模型手动部署到对象存储或者挂载硬盘中,以便后续使用。
2)自动更新迭代:当训练集的规模增加或变更且反馈机制反馈多次之后,系统将会触发某些函数进行模型的更新迭代。此时值得注意的是:
·如果触发模型更新迭代的阈值比较容易达到,可能会瞬时触发多个实例进行模型的更新迭代,极有可能造成模型时序错误。此时,我们可以考虑对模型更新迭代的函数资源进行使用量的配置,例如单个时间段内,实例的上限数量为1,超过限制的部分需要按照时序排队等待等。
·模型文件更新迭代时需要消除对模型读取和加载的影响。由于Serverless架构是无状态的,所以极有可能在模型文件更新迭代的过程中出现较为大规模的模型加载,这样极有可能出现模型文件系统错乱以及模型加载失败等问题。此时,我们可以借助一些云产品,例如对象存储等实现相对应的模型文件更新迭代。
尽管Serverless架构如今已经被应用到很多行业和领域,但是在人工智能领域,尤其是机器学习、深度学习领域,Serverless架构由于其天然分布式、无状态等特点,依旧面临着很大的挑战。在机器学习场景下,由于模型文件相对庞大,依赖的资源相对较多,Serverless架构上的机器学习困难重重。但是随着时间的推移,从开发技术升级的角度来看,Serverless架构也在不断完善,包括云厂商提供的预留实例、资源池化、实例复用服务,以及引入的GPU实例、性能实例等。若想Serverless架构上的机器学习项目有更好的应用效果,还需要从多个维度进行分析和优化。
标签:Serverless,架构,迭代,AI,模型,实例,冷启动 From: https://www.cnblogs.com/muzinan110/p/17067853.html