首页 > 其他分享 >成本减半 + 效率翻倍:这家企业用 11 天实现数据处理飞跃

成本减半 + 效率翻倍:这家企业用 11 天实现数据处理飞跃

时间:2024-11-14 11:21:10浏览次数:1  
标签:11 数仓 Kafka 布鲁肯 广告 ByteHouse 数据处理 数据 翻倍

伴随着云计算和数字化浪潮的推进,越来越多行业数据实时性的权重正在被加速提升,对企业而言,如果想要保证业务的持续发展,其底层数据库必须要能满足数据的实时性和高并发要求。

除此之外,在降本增效的大潮下,“高性价比”也成为企业选择一款数仓的重要因素。

那么,企业应该如何构建自己的实时数仓体系,并兼具性能、成本、运维等全部需求?

让我们把视线聚焦到数字广告行业,这家企业仅仅用了 11 天,在数据处理方面,就实现了效率提升 40%、成本降低 30%。这就是数字化广告平台——布鲁肯。

业务背景:实时数仓是广告业数据引擎的核心动力

作为一家数字化广告平台,布鲁肯覆盖全渠道自助式变现解决方案,为移动开发者提供增长和变现一体化的商业解决方案。一方面,布鲁肯帮助媒体端(如电商平台、社媒网站等)获得更大的流量和广告收益,另一方面帮助广告主提供足够精准的广告投放策略,以提高产品曝光。

以 APP 开屏广告展示为例,开屏广告展现在人们眼中的时间仅需 200ms,甚至是 100ms。在如此短时间内,上演的却是一个完整周期的广告模型——从打开时的接受用户数据,到基于用户数据生成对应的广告策略,最终再反馈到产品端进行前端展示。

而为这个复杂精密的实时数字广告模型提供核心动力的,是布鲁肯的底层实时数据仓库,在特定节日大促期间如 618、双 11 等,底层的数据流转则更是会被以十倍、乃至百倍的要求提速。

业务痛点:无法平衡的效率与成本

布鲁肯在全球拥有 600 多家 DSP、代理平台和广告主伙伴,底层数据系统一天的请求次数高达 150 亿,数据流量超过 2GB/s,广告日均点击 20M+,多样化场景、海量数据高并发的需求场景每时每刻都在布鲁肯上演。

数据体量大,场景多样,导致整体数据架构复杂的,之前布鲁肯基于开源 ClickHouse 自建系统,其本身固有的列式存储模式,伴着业务发展,对应的硬件成本更在飞速飙升。另外, ClickHouse 本身虽然具备强大的分析和线性拓展能力,但在复杂查询等层面不擅长。

布鲁肯在构建实时数仓过程中主要面临问题:

  • 海量数据下的高并发:采集数据量大 ,数据流量超过 2GB/s,并发处理要求高。

  • 系统稳定性要求:业务包含广告营销投流分析等,对于数据质量与稳定性要求高。

  • 弹性扩容和降本增效:资源需求随营销活动动态变化,比如 618、双 11 等大促期间,数据量级骤增,性能要求更高,需要能根据实际业务需求,灵活调整资源配置。

直观反映到企业经营层面:底层硬件以及数据库运维侧不断在投入更多的企业运营成本,但前端业务依然会出现“卡顿、用户请求反馈慢、投放策略优化不及时”等问题。

优化方案:从 ClickHouse 到 ByteHouse 实时数仓解决方案

  1. 选型历程:

关于数据库的选型工作在布鲁肯内部持续开展,调研产品包括 Flink 等国内诸多主流数据库产品,在相关业务场景的性能表现以及使用成本,未能满足要求。

从最开始选择 ByteHouse 到使用其进行生产,布鲁肯仅仅用了 11 天。引入 ByteHouse,对布鲁肯企业业务影响极小且成本极低。

  1. 产品组合:

云原生数据仓库 ByteHouse (企业版)+Kafka

  • Kafka 集群:用于流式数据的传输和处理,确保大规模数据在不同系统之间的高效传输和实时处理。

  • ByteHouse 集群: 作为核心的数据存储与处理平台,支持大规模数据的存储、查询和分析,支持高效处理实时数据和批量数据,提供快速的查询响应和复杂的分析能力。

  1. 方案介绍:

基于 ByteHouse+Kafka 搭建一套高效、可靠、可扩展的实时数仓链路,解决数据整合、实时处理、广告效果评估等问题,提升广告业务的整体运营效率,更好地为下游合作伙伴广告投放决策提供支持。

  • 数据链路设计:来源于广告终端的数据,进入 Kafka 集群,再经过 ByteHouse 内表和物化视图加工,同步到数据应用中,最终辅助广告主、广告平台等进行投放效果的评估、费用结算等。

  • 生态兼容性:ByteHouse 与 Kafka 具备很强适配性,为了更好地适配 Kafka,ByteHouse 内置增强型 Kafka 引擎,为数据写入提供高性能保障。

  • 扩展性:ByteHouse+Kafka 均为分布式架构优势,让布鲁肯系统具备充分的灵活性,可以在分钟级别下完成全链路扩容,以便应对广告场景中常见的大促等流量峰高。

  • 压缩成本:ByteHouse 具备冷存储的能力,将热数据自动转存到冷存储的方式引入布鲁肯,有效缓解业务存储空间持续增长的问题。

  1. 应用场景

以今年 618 大促为例。数字广告行业与电商等行业具备同样流量峰值点,底层服务器和数据库需要紧急扩容和定向监测运维来应对流量高峰。

ByteHouse 与布鲁肯提前 2 周联合制定预案,包括如何扩容、紧急处理等。在 618 大促期间,运维人员只需要点击扩容按键等简单操作,就能实现分钟级扩容。如果基于之前的开源产品,这类运维工作投入成本和工作量会是现在的几十乃至上百倍。

最终成效:1 个人力,降低企业 30%成本

  1. 扩展业务边界

“以 618 为例,我们之前只上了程序化竞价广告,像今年,我们包括其他的一些网站、社媒,以及品牌 PDB 投放我们也都可以支持,相当于业务宽度更广了。”

——布鲁肯市场负责人张亚灵

  1. 极致降本增效

“基本全线切到火山引擎之后,我们的成本大概降低了 30%,在效率侧,我们评估提高了 30%- 40% 左右,这两个一叠加,其实我觉得效率整体提高一半是有的。”

  ——布鲁肯市场负责人张亚灵

“其实在整个过程中,我们几乎没有提供过重的服务,除了部分参数和指标的调整确认,也就是一个研发接近 20%、30%的人力投入,对于布鲁肯来说,只投入 1 个人力就完成了接入和运维。”

——ByteHouse 团队相关负责人

现阶段,布鲁肯的同款聚焦于降本增效的实时数仓解决方案已经上线。

 

  案例来源:产业家《实时数仓,站上产业潮头》

 

《ByteHouse 极致降本指南》也重磅上线,欢迎领取:https://wj.toutiao.com/q/324727/m770OOv3/ec1a/#/

标签:11,数仓,Kafka,布鲁肯,广告,ByteHouse,数据处理,数据,翻倍
From: https://www.cnblogs.com/bytedata/p/18545623

相关文章

  • Invicti v24.11.0 发布,新增功能概览
    Invictiv24.11.0forWindows-Web应用程序安全测试InvictiStandardv24.11.0–12Nov2024请访问原文链接:https://sysin.org/blog/invicti/查看最新版。原创作品,转载请保留出处。作者主页:sysin.orgInvicti是一种自动化但完全可配置的Web应用程序安全扫描程序,使您......
  • 2024.11.16-文件管理
      2024.11.16-文件管理 一、输入当前日期在QQ拼音输入法状态下打字输入rq3可以快速输入当前日期,(个位数月日前自动用数字0补位,使日期占位长度固定不变,输入sj3可以快速输入当前日期和时间)二、文档表格图片编辑在微信扫码授权登录的金山文档中编辑修改文档表格图片(图片用F......
  • LeetCode 1103[分糖果II]
    题目链接LeetCode1103[分糖果II]详情实例提示题解思路定义容器vecRet,使每个元素值均为0,即代表每个孩子手上开始都是0个糖果定义iCount为默认的糖果数量,初始值为1逐个遍历容器,也就是开始给每个孩子分糖果获取容器当前元素值,即每个孩子当前的糖果数量iAt如果糖果......
  • 2024.11.11交通事故记录
     2024.11.11 08:46:52 在公司附近十字路口(北京市朝阳区)我:摩托车,是前车,左转车道静止对方:汽车,是后车,左转车道静止 后车突然溜车顶我摩托尾部,当场向右倒车,后刹车踏板断掉,后挡泥板车牌贴到了车轱辘上我当时要了300元修车费,加了微信,跟对方讲不够再要 我到公司后,上午发现......
  • 【2024-11-13】增强意志
    20:00我一向有一个看法,我觉得,每一个人的一生都是一场拼搏。人的降生,都是被动的,并非出于个人愿望。既然来到人间,就必须活下去。然而,活下去却不容易,包括旧时代的皇帝在内,馅饼并不从天上自动掉到你的嘴里来,你必须去拼搏。这是一个人生存的首要任务。          ......
  • Python 开发(11):生成器与迭代器 - 高效处理数据流
    Python开发(11):生成器与迭代器-高效处理数据流在Python中,生成器和迭代器是非常强大的工具,能够帮助开发者高效地处理大规模数据,尤其是在内存资源有限的情况下。它们通过惰性计算的方式,逐步生成数据,避免一次性加载大量数据到内存中,提升了程序的性能和效率。本文将详细介......
  • SQL注入【sqli靶场第11-14关】(三)
    SQL注入【sqli靶场第11-14关】(三)★★免责声明★★文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与学习之用,读者将信息做其他用途,由Ta承担全部法律及连带责任,文章作者不承担任何法律及连带责任。0、总体思路先确认是否可以SQL注入,使用单双引号,1/0,括号测试'"1/0)......
  • 11.15
      实验16:命令模式本次实验属于模仿型实验,通过本次实验学生将掌握以下内容: 1、理解命令模式的动机,掌握该模式的结构;2、能够利用命令模式解决实际问题。 [实验任务一]:多次撤销和重复的命令模式某系统需要提供一个命令集合(注:可以使用链表,栈等集合对象实现),用于存储一系列......
  • 11.14
    实验15:职责链模式本次实验属于模仿型实验,通过本次实验学生将掌握以下内容: 1、理解职责链模式的动机,掌握该模式的结构;2、能够利用职责链模式解决实际问题。 [实验任务一]:财务审批某物资管理系统中物资采购需要分级审批,主任可以审批1万元及以下的采购单,部门经理可以审批5万......
  • 11.18
      实验17:解释器模式(选作)本次实验属于模仿型实验,通过本次实验学生将掌握以下内容: 1、理解解释器模式的动机,掌握该模式的结构;2、能够利用解释器模式解决实际问题。 [实验任务一]:解释器模式某机器人控制程序包含一些简单的英文指令,其文法规则如下:expression::=directi......