首页 > 其他分享 >海大集团的可观测平台建设实践

海大集团的可观测平台建设实践

时间:2024-08-30 11:50:43浏览次数:3  
标签:海大 业务 实践 观测 Flashcat 监控 告警

海大集团介绍

海大集团是以科技为主导的中国农业龙头企业,1998年成立于广东广州,目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链,在全球拥有分子公司逾600家、员工达4万人,位列2023中国企业500强第238位、2023中国民营企业500强第87位。凭借亮眼的业务表现和品牌影响力,海大集团连续5年榜上有名,上榜2024年《福布斯》全球企业2000强第1415位。

海大集团

需求和挑战

海大 IT 部门在构建统一观测平台之初,就定下了 4 个明确目标:

  1. 要覆盖不同业务板块(比如我们有众多的业务板块和业务系统)
  2. 要满足异构的 IT 环境(容器/K8s、物理机、虚拟机、公有云并存)
  3. 要打通从业务视角到 IT 视角的监控
  4. 要具备高效的故障发现和定位能力

在使用 Flashcat 方案之前,我们采用 Prometheus 来收集微服务的监控数据,并配合 alertmanager 发送告警、Grafana 可视化;使用 Zabbix 来监控网络和机器设备;同时使用 EFK 技术栈、阿里云日志服务来收集和监控日志;在链路跟踪方面,既有用 SkyWalking、ElasticAPM,也有使用阿里云 ARMS。

可以看到,随着业务的发展和架构的演化,我们不断地引入了各类监控工具,来满足不同场景、不同环境、不同 IT 架构的监控需求。维护好和使用好这些监控工具,给我们带来了不小的挑战:

  • 多个监控工具,维护成本高;每个工具,都需要学习一遍,使用门槛高。
  • 数据分散在不同的系统中,在分析问题、定位故障的时候,效率低下。
  • 多个监控工具发出的告警,没有地方集中查看和分发,告警噪音大,告警处理过程不透明,容易遗漏。
  • 虽然已经有了这么多的监控工具,仍然面临监控数据采集不全、需要补充完善的情况,比如我们各种型号网络设备的负载监控、网络全链路监控、业务指标监控等。

我们希望能够建立一个统一的观测平台,更好地去保障系统的稳定性,提升整个技术团队的效率。

解决方案

Flashcat 是快猫星云以开源夜莺为内核打造的一体化可观测平台,有以下特点:

  • 统一采集,配套的采集器Categraf,采用插件化思路,内置集成上百种采集插件,GPU、服务器、网络设备、中间件、数据库、应用、业务,云上云下,均可监控,开箱即用;
  • 集成融合,除过使用采集器,还可以集成企业内部已有的、云上云下的可观测配套系统,无需推倒重来,充分利旧,快速见效,串联打通数据,发挥协同分析的价值;
  • 统一告警,在一个平台上支持指标告警、日志告警、智能告警,支持几十种数据源对接,收集各类监控系统的告警事件,进行统一的告警收敛、降噪、排班、认领、升级、协同,大幅提升告警处理效率;
  • 统一观测,将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通,并预置行业最佳实践,既提供全局业务视角、技术视角的驾驶舱,也提供层层下钻的故障定位能力,有效缩短故障发现和定位时间;

Flashcat

我们特别看重 Flashcat 这几个特性:

  • 能监控业务指标,把业务指标和 IT 系统的健康度挂钩联动起来
  • 能对接企业已有的、采集好的数据,落地快速阻力小、风险也小
  • 有一套成熟的互联网特色的故障发现定位方法论,能支持我们去推进 1-5-10 稳定性保障体系构建
  • Flashcat 提供的告警聚合降噪功能,能有效降低告警的数量

因此,我们和 Flashcat 技术团队合作,制定了以下落地路线图:

路线图

落地效果

我们参照 Flashcat 的稳定性保障模型,对所有的业务板块、基础架构、大数据、集团网络,从上到下建立了北极星、灭火图、多维分析报表,实现了故障发现、定位、分析的立体化方案。

板块和层级梳理

其次,我们以数据源对接现有的监控数据为基础,同时采用Flashcat配套的all-in-one采集器Categraf,对我们的可观测性数据进行了采集完善,从而快速、平滑的实现了使用一个平台,满足完整的可观测性需求的目标,大大提升了用户体验和使用效率。

落地效果

最后,我们将原先分散的告警,全部收集到了Flashcat的统一告警事件响应平台上,落地了告警聚合降噪、认领、升级、排班、分发等能力,实现对告警事件的全生命周期管理和对告警数据的全面分析,数据驱动告警治理优化,显著提升了 oncall 效率。

本文作者海大集团IT系统副经理吕利兵。

标签:海大,业务,实践,观测,Flashcat,监控,告警
From: https://www.cnblogs.com/ulricqin/p/18388422

相关文章

  • 自动化测试:Monkey工具实践应用~
    在移动应用的自动化测试中,意外的用户操作和各种不可预见的场景往往是导致应用崩溃的主要原因。如何有效地模拟这些复杂场景,成为了测试工程师的一大挑战。而在这一过程中,Monkey工具凭借其随机化测试的独特优势,成为了许多团队的利器。那么,Monkey工具究竟是如何帮助测试工程师发现隐......
  • 2025秋招大语言模型落地实践面试题
    本文系统地从计算力基础设施、软件架构、数据资源、应用场景和脑科学五大核心维度对大模型实践中的问题进行解答。目录计算力基础设施1.1什么是云边端协同架构?1.2信息技术应用创新计划相关政策对企业的影响?软件架构2.1拥有自己的大语言模型(LLM)是否必要?2.2......
  • 一线实战:运维人少,我们是如何从 0 到 1 实践 DevOps 和云原生?
    作者:周明轩背景上海经证实业集团成立于2009年,公司一直致力于为新能源、车辆租赁以及智能机器人行业的客户群体提供高质量的“产投融合”增值服务,通过标准化金融产品和供应链信息技术为纽带,更好的服务实体经济。上海经证科技有限公司是上海经证实业下属的科技公司。问题及痛点......
  • 一线实战:运维人少,我们是如何从 0 到 1 实践 DevOps 和云原生?
    作者:周明轩背景上海经证实业集团成立于2009年,公司一直致力于为新能源、车辆租赁以及智能机器人行业的客户群体提供高质量的“产投融合”增值服务,通过标准化金融产品和供应链信息技术为纽带,更好的服务实体经济。上海经证科技有限公司是上海经证实业下属的科技公司。问题及痛点......
  • Capital许可分析的最佳实践
    在快速变化的软件许可环境中,企业如何确保合规性并优化成本?Capital许可分析为此提供了解决方案。通过深入探讨Capital许可分析的最佳实践,并结合实际案例,本文将为企业展示如何实现合规与成本的双赢。一、明确目标与策略成功的Capital许可分析始于明确的目标与策略。某大型制造企业......
  • QUIC在京东直播的应用与实践
    一.前言与背景国内的互联网直播技术从2005年前后兴起,彼时最具代表性的直播产品是由PPLive创始人姚欣在华中科技大学就读期间发起的校园直播项目PPLive。当时的直播技术用的还是基于windows系统自带的mediaplayer内置的COM组件开发的播放器,采用的是RTSP协议。受当时的互联网传......
  • 在Vue3应用中使用TypeScript的最佳实践
    随着Vue3的推出,TypeScript逐渐成为了前端开发中的一种必备技能。Vue3的设计更好地支持TypeScript,这使得开发者可以在开发过程中充分利用TypeScript的强类型系统,从而提高代码的可维护性和可读性。在这篇博客中,我们将深入探讨在Vue3应用中使用TypeScript的最佳实践,并通过示例......
  • 监控Nginx负载均衡后端服务器状态的策略与实践
    在Nginx负载均衡的部署中,监控后端服务器的状态对于确保高可用性和服务连续性至关重要。通过检测后端服务器的状态,可以及时发现问题并采取措施,如故障转移或服务重启。本文将详细介绍如何检测Nginx负载均衡后端服务器的状态,包括监控方法、工具使用、配置实现以及自动化告警。......
  • 深入学习电路基础:从理论到实践
    引言电路是电子学的核心,也是现代科技的基石。从简单的灯泡开关到复杂的计算机处理器,电路在各类电子设备中都起到了至关重要的作用。深入学习电路知识不仅有助于理解电子设备的工作原理,还能够为实际设计和开发电子产品打下坚实的基础。本文将通过对电路基本概念、重要定律、常......
  • 如何驱动企业数字化转型的敏捷企业的创新实践指南:敏捷企业架构的制胜之道
    敏捷企业架构如何引领企业转型变革在全球化与数字化交织的新时代,企业正处于前所未有的变革浪潮中。传统的企业架构方式已经难以应对瞬息万变的市场需求和技术革新。作为一种突破性解决方案,敏捷企业架构提供了一个灵活且强大的框架,帮助企业在动态环境中保持竞争优势,迅速响应市......