函数计算助力领健信息为“看牙”注入 AI 活力

作者：姜伟、龚杨、周韬、王彬

发展背景

领健成立于 2015 年，总部位于上海，并在全国设立了 20 余家分支机构，拥有 100 项软件著作权、91 项注册商标、35 项发明专利，致力为口腔诊所、医美机构等消费医疗企业提供经营管理一体化解决方案。

领健拥有 ISO/IEC27001 国内国际双认证、公安部等保三级认证及工信部通保三级认证，全面赋能消费医疗机构的数字化经营，助力机构完成开源、避险、节流、增效的健康经营闭环。

领健创新 SaaS + X 模式，旗下拥有 e 看牙软件、e 看牙商城、领健悦见等品牌。e 看牙软件为口腔机构提供单店/连锁管理、电子病历、客户关系管理、进销存管理、智能营销、BI 商业智能分析、影像集成等覆盖口腔机构业务全流程的 SaaS 软件服务；e 看牙商城链接产业链上游 1000+ 国内外知名耗材品牌，严选近 2 万+耗材商品，为口腔机构提供一站式耗材采购服务；领健悦见以“精确诊断·精准正畸·精准监控”为理念，是新一代隐形正畸解决方案服务商，现已推出悦见成人矫治、悦芽儿童早期矫治等多个产品系列。

领健作为业界领先的口腔机构，在技术和服务上始终追求卓越。领健面向口腔诊所，提供了正畸算法，口腔医生在日常接诊过程中，对消费者的口腔牙齿状态进行拍照，通过算法能够给出相应的诊断和治疗建议，提升口腔医生的效率。

平台特点及业务痛点

口腔诊所的上班时间比较固定，一般都在 08:30～18:00，节假日会更加繁忙一点，时间拉长到一个月，可以看到明显的波峰波谷。

领健信息早期在云上购买了一波 GPU 机器用于算法的部署，提供对外服务，但在使用过程中遇到了不少问题，主要有以下几个：

资源利用率低，成本浪费： 采用按月持有机器，在下班时间没有业务流量，由于考虑到可能的业务高峰，持有多台 GPU 机器，平峰期利用率不高。总体资源利用率维持在 5% 左右。
高峰期业务响应慢： 应对突发流量能力不足，超出预期的流量会导致服务负载加大，请求响应时间变长，直接影响终端客户的使用体验，在业务最高峰，曾经出现单个请求排队 10 分钟的情况。
监控和排查能力不足： 正畸算法在持续的迭代，在迭代部署的过程中，会出现请求偶发卡顿和程序报错的情况，但由于本身监控和告警能力不足，没法第一时间主动感知，常常需要终端使用门店反馈情况，降低了主动优化算法的效率。

除此之外，频繁的运维动作和持续的的平台建设，也给运维同学带来很多的日常工作，同时也加大了系统的不稳定因素，加上 GPU 技术在近年发展迅猛，领健技术同学也需要在这个领域持续投入不少精力，对于以上这些问题，领健技术同学开始在云上寻求更好，更高效的解决方案。

解决方案

领健技术团队一直在寻求更好的解决方案，期望在成本，服务体验，运维效率上都能得到改善，在对比了阿里云的多个云产品之后，最终将重点放在了函数计算上。

阿里云函数计算是事件驱动的全托管计算服务。通过函数计算，客户无需管理服务器等基础设施，只需编写代码并上传。函数计算会准备好计算资源，以弹性、可靠的方式运行代码，并提供日志查询、性能监控、报警等功能。

函数计算除支持传统的 CPU 算力，也支持 GPU 的算力，采用服务器无感知计算的理念，通过提供一种按需分配的 GPU 计算资源，有效地解决原有 GPU 长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。为客户提供更加便捷、高效的 GPU 计算服务，有效承载 AI 模型推理、AI 模型训练、音视频加速生产、图形图像加速等加速工作负载。

函数计算 GPU 资源架构图如下：

函数计算 GPU 采用虚拟化技术，做到算力，显存，故障的强隔离，100% 兼容原生应用。函数计算通过两级的资源池，保证算力的快速供给，函数计算 GPU 资源池平台持有，客户只需要按量使用，无需为闲置资源买单。

函数计算 GPU 资源请求模型如下：

当 GPU 函数部署完成后，客户可以通过配置预留 GPU 实例的弹性伸缩策略开启预留 GPU 实例，以提供实时推理应用场景所需的基础设施能力。函数计算平台将根据客户配置的伸缩指标进行预留 GPU 实例的 HPA ，客户请求将优先分配至预留 GPU 实例进行推理服务，平台完全遮蔽冷启动，业务保持低延迟响应。除此之外，平台集成了可观测，日志，监控，告警等系统，以简化问题的排查效率和日常的运维工作。

最终，领健技术团队经过一系列验证之后，在函数计算的最终架构图如下：

架构图非常简单，业务流程如下：

客户将正畸算法做成标准镜像放入阿里云镜像仓库 ACR；
当前端有正畸的调用请求时，需要初始化实例时，FC 通过拉取 ACR 中镜像以及底层 GPU 资源完成实例的初始化工作，完成算法应用的部署；
正畸计算请求发送至新创建的 GPU 应用上进行计算，并返回结果。

成果和优势

通过将 GPU 计算负载放到函数计算，领健技术团队很好地解决了先前遇到的使用问题：

成本优化： 函数计算按量付费的计费方式，真正做到了按照实际请求处理时间收费，最大限度的降低了资源持有的成本，相比早前的按月持有 GPU 资源，函数计算的费用降低了 90% 左右，达到了很好的降本效果。
高峰期业务体验： 通过业务高峰期的提前资源拉起和突发资源的按量弹性，做到了后端资源及时的供给，采用函数计算部署后，门店再也没有出现长时间排队的情况，大大提升了使用体验。
高效运维： 通过函数计算内置的监控，日志和告警系统，可以实时关注业务的大盘运行情况，通过配置监控告警，在异常时，可以第一时间收到异常推送，并借助完善的日志系统和函数计算专业的技术团队，及时定位并解决程序问题。

除此之外，采用函数计算部署，给了整个系统很好的伸缩性，对于将来业务的增长，也不必担心核心的 GPU 资源规划问题，这一点也为业务的持续发展打下了坚实的基础。

总结&展望

通过将核心应用迁移到函数计算平台，领健技术团队不仅成功应对了业务增长带来的挑战，还显著优化了成本结构，同时加速了开发和运维流程，实现了前所未有的敏捷性和效率。

展望未来，领健技术团队将继续深化与函数计算的合作。随着公司业务版图的不断扩展，预见更多的应用场景将得益于函数计算的弹性伸缩、低成本及高效率的优势。领健技术团队计划在新业务部署时，优先考虑采用函数计算架构，以期进一步缩短产品上市时间，提升用户体验，并持续降低运营成本。

阿里云函数计算也期待与领健共同探索更高效、更智能的医疗服务解决方案，助力医疗健康产业的数字化转型。相信在双方的紧密合作下，领健能够更好地服务于患者与医疗从业者，推动行业向更加智能化、高效化的方向迈进。

点击此处，体验函数计算。

标签：函数,AI,正畸,领健,计算,GPU,看牙,资源
From： https://www.cnblogs.com/alisystemsoftware/p/18198114