首页 > 数据库 >从MySQL到ByteHouse,抖音精准推荐存储架构重构解读

从MySQL到ByteHouse,抖音精准推荐存储架构重构解读

时间:2024-03-05 11:01:21浏览次数:265  
标签:存储 MySQL 查询 抖音 ByteHouse 圈层 兴趣

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

抖音依靠自身推荐系统为用户推送可能感兴趣的视频内容,其中兴趣圈层是推荐的重要能力,通过理解核心用户的偏好特征,判断两者偏好的相似性,从而构建同类用户的兴趣圈层,实现精准推荐。

以往的兴趣圈层往往依赖单一的维度或标签,比如内容类型、时长、地理特征等,难以揭示用户兴趣的底层逻辑。例如,重庆美女小姐姐吃播视频、二次元古风舞蹈视频,表面上标签类型可能完全不一样,但深度分析后发现喜欢两个视频的是同一个类型的人,并把他们划分在同一个兴趣圈层中。

要搭建这样一套兴趣圈层平台,不仅需要算法策略,对底层数据存储架构也是一大挑战。抖音每日新增的数据量庞大、业务标签五花八门,更需要满足业务人员对复杂查询的实时性诉求。之前技术团队采用MySQL作为存储架构,作为一种行式存储的数据库,MySQL对于大量数据的处理效率较低。如果要在MySQL上查询上亿级别的数据,可能需要更高配置的硬件,甚至可能需要采用分片、读写分离等策略来提升性能,这将导致硬件成本显著提高。

因此,技术团队逐渐将兴趣平台基于ByteHouse进行重构。ByteHouse是一款OLAP引擎,具备查询效率高的特点,在硬件需求上相对较低,且具有良好的水平扩展性,如果数据量进一步增长,可以通过增加服务器数量来提升处理能力。本文将从兴趣圈层建设难点及构建方案等角度拆解如何基于OLAP引擎来搭建兴趣圈层平台。

兴趣圈层平台介绍

兴趣圈层指兴趣爱好相同的人组成的群体,兴趣圈层可以从用户视角更深入的理解短视频作者和内容,挖掘出该圈层作者核心用户群体的共同兴趣点和典型偏好特征,作为划分作者的重要标签,应用在内容分发、垂类运营、数据分析、战略规划等场景中输出价值。兴趣圈层以簇(cluster)的形式存在,通过机器模型聚类而成,每个簇包含一位种子作者及多位与之关联作者。

image

圈层生产流程:数仓的天级 Hive 表以定时任务的方式将 Hive 表内数据按照分区导入 RDS(MySQL) 数据库,同时预计算脚本每天会定时将 RDS 内的数据按需写入缓存(如圈层信息等通用查询)或写回RDS(如圈层的父节点信息等核心数据),生产流程成功会标记在缓存代表今日数据有效,反之报警通知相关负责人。

圈层查询流程:用户操作查询,前端发送查询场景数据请求,服务端接收到请求后读取相应的缓存、数据库表及分区,对数据进行组装,最终返回给用户。

主要问题

数据膨胀

日更版本导致数据量级膨胀,圈层基础信息表日增万级数据,圈层作者信息表日增百万数据,圈层用户信息表日增千万条左右数据,已经达到 MySQL 秒级千万级查询的性能瓶颈。

查询效率已无法满足需求,即使有缓存加速减少联表查询,单表查询的效率在到10s以上,其中圈层理解(圈层用户信息表)进入页面的时间超过15s,一定程度影响业务使用体验。之前做了很多包括索引优化、查询优化、缓存优化、表结构优化,但是单次对表更新列/新增修改索引的时间已经超过2天,优化成本也逐渐升高。

历史架构过薄,难以承接较复杂圈选能力

从现状来看,当前圈层架构简单且为区分查询场景,与数据库直接交互且仅支持简单的同步查询,当业务需要较复杂的泛化圈选条件时,需要用户在平台等待超过15s。

从未来规划,目前以 RDS 为存储的同步查询架构已无法支持需要关联多个表和特征的复杂条件查询的业务场景。

业务特征膨胀

标签特征膨胀,当前圈层有越来越多的标签描述,由于不同业务方会通过不同视角理解圈层,如垂类标签/圈层关键词描述/圈层质量分类/圈层画风等,目前圈层信息实体特征达到几十种,预计圈层属性标签仍会膨胀。

一站式圈选泛化目标作者诉求增多,当前作者只包含基础信息,业务方希望基于圈层和其他基础作者特征,如粉丝数,作者质量,活跃度等以满足对作者的流量定向策略等需求,以满足复杂条件多维度的筛选排序功能。

基于 ByteHouse 重构兴趣圈层平台

RDS 作为行式数据库更适合单点事务分析工作显然不符合当前平台诉求,我们分别从查询场景、查询性能、存储成本、迁移成本对存储选型。

查询场景

  1. 圈层信息由模型生产,按时间分区批量导入,不存在临时导入,为 append only 场景。
  2. 圈层特征多,业务方按照诉求对和自身业务相关的特征进行筛选,列式存储比行式存储更合适。
  3. 圈层主要以分析统计为主,不强需求事务处理,面向 OLAP 业务。

查询性能

  1. MySQL 对于多列复杂的条件查询时,查询性能很难优化,需要通过强依赖 redis 缓存加速,否则平台功能不可用。
  2. 圈层场景通常限制在局部数据中聚合分析,如计算圈层id位于集合内的关键词频率统计,若该集合范围过大索引失效会被劣化为全表扫描。

详细场景测试

重构前后存储对比

MySQL ByteHouse
关系型数据库,支持事务 分布式列数据库,支持最终事务
行存储模式,适合尽量少的读取需要的行数据 列存储模式,且数据压缩比高,对大批量数据读取有着天然优势
单进程多线程服务,单条业务请求查询无法有效利用到多个 CPU 资源 多核并行
面向 OLTP 业务 面向 OLAP 业务

具体场景对比

数据管理信息查询场景:

image

应用工具分析场景:

image

总结

综上可以看到,基于 ByteHouse 替换 MySQL 重构抖音兴趣圈层平台后,不同几个典型场景的查询效率平均提升了 100 倍左右,大大提升了用户体验。由于 ByteHouse 出色的查询性能和良好的数据压缩比,中等资源的服务器就能很好的满足需求,这也降低了综合硬件成本。此外,ByteHouse 具有良好的水平扩展能力,如果数据量进一步增长,也可以便捷的通过增加服务器数量来提升分析能力。

点击跳转火山引擎ByteHouse了解更多

标签:存储,MySQL,查询,抖音,ByteHouse,圈层,兴趣
From: https://www.cnblogs.com/bytedata/p/18053524

相关文章

  • day06-Mysql数据库
    Mysql一、概述1.1数据模型关系型数据库RDBMS,由多张二维表组成的数据库1.2SQLDDL:数据定义语言DML:数据操作语言DQL:数据查询语言DCL:数据控制语言,创建用户,控制数据库访问权限二、sql语句2.1DDL2.1.1查询:showdatabases;selectdatabase();2.1.2创建:createda......
  • dpkg安装mysql时失败卸载不掉踩的坑
    原文:https://blog.csdn.net/Camu7s/article/details/43485985nbuntu下彻底卸载mysql:apt-getautoremove--purgemysql-serverapt-getremovemysql-serverapt-getremovemysql-clientapt-getremovemysql-common最后清楚残留数据(important!!!):dpkg-l|grep^rc|awk'{print......
  • MySQL批量更新10万条数据怎么最快?
    如果10万条数据进行批量更新该怎么操作呢?我们一起来看看具体可以怎么做。mysql批量更新如果一条条去更新效率是相当的慢,循环一条一条的更新记录,一条记录update一次,这样性能很差,也很容易造成阻塞。mysql批量更新共有以下四种办法1、.replaceinto批量更新replace into ......
  • MySQL锁系列(二)之 锁解读
    原文链接https://keithlan.github.io/2017/06/05/innodb_locks_show_engine/背景锁系列第一期的时候介绍的锁,我们要如何去解读呢?在哪里能够看到这些锁?锁信息解读工欲善其事必先利其器showengineinnodbstatus关于锁的信息是最详细的案例一(有索引的情况)前期准备......
  • MySQL锁系列(一)之锁的种类和概念
    原文链接https://keithlan.github.io/2017/06/05/innodb_locks_1/背景锁是MySQL里面最难理解的知识,但是又无处不在。一开始接触锁的时候,感觉被各种锁类型和名词弄得晕头转向,就别说其他了。本文是通过DBA的视角(非InnoDB内核开发)来分析和窥探锁的奥秘,并解决实际工作当中遇到的问......
  • 推荐一个Mysql客户端命令行神器
    目录软件主页安装选项参考命令链接数据库参考网址​​ 今个推荐一个MySQL命令行客户端---MyCli,其支持命令的自动补全和语法高亮;软件主页MyCli--HomePags安装#Mycli支持在Python环境,MacOS,Windows系统下安装使用,pip3installmycli#Python下安装,解释器......
  • MySQL之事务
    事务什么是事务事务transaction(简写tx),在数据库中,事务是指一组逻辑操作,这些操作要么全部执行,要么全部不执行,是一个不可分割的工作单位。事务由事务开始与结束之间执行的全部数据库操作组成。事务的作用保证了对数据操作的安全性,保证数据的一致性例子:还钱的例子还钱的账户数......
  • MySQL之索引
    索引知识回顾:数据都是存在于硬盘上的,查询数据不可避免的需要进行IO操作索引:就是一种数据结构,类似于书的目录。意味着以后在查询数据的时候应该先找目录再找数据,而不是一页一页的番薯,从而提升查询熟读降低IO操作。索引在MySQL中也叫“键”,是存储引擎用于快速查找记录的一种数据......
  • MySQL-18 MySQL8其他新特性
    C-18.MySQL8其他新特性1.MySQL8新特性概述MySQL从5.7版本直接跳跃发布了8.0版本,可见是一个令人兴奋的里程碑的版本。MySQL8版本在功能上,做了显著的改进与增强,开发者对MySQL的源代码进行了重构,最突出的一点是对MySQLOptimizer优化器进行了改进。不仅在速度上得到了改善,还为用......
  • C++ mySQL数据库连接池(windows平台)
    C++MySQL数据库连接池新手学了C++多线程,看了些资料练手写了C++数据库连接池小项目,自己的源码地址关键技术点MySQL数据库编程、单例模式、queue队列容器、C++11多线程编程、线程互斥、线程同步通信和unique_lock、基于CAS的原子整形、智能指针shared_ptr、lambda表达式、生产......