首页 > 其他分享 >分库分表带来的这7大问题,一定要小心!

分库分表带来的这7大问题,一定要小心!

时间:2025-01-07 10:26:21浏览次数:7  
标签:分库 分页 小心 查询 分片 分表 ID

前言

分库分表是解决单库单表性能瓶颈的有效手段,但也会引入新的复杂性和技术挑战。

这篇文章跟大家一起聊聊,分库分表后带来的7个问题,以及相关的解决方案,希望对你会有所帮助。

(我最近开源了一个基于 SpringBoot+Vue+uniapp 的商城项目,欢迎访问和star。)[https://gitee.com/dvsusan/susan_mall]

1. 全局唯一 ID 问题

问题描述

在分库分表后,每张表的自增 ID 只在本表范围内唯一,但无法保证全局唯一。

例如:

  • 订单表_1 的主键从 1 开始,订单表_2 的主键也从 1 开始。
  • 在需要全局唯一 ID 的场景(如订单号、用户 ID)中会发生冲突。

解决方案

1.1 使用分布式 ID 生成器

推荐工具:
  • Snowflake:Twitter 开源的分布式 ID 算法。
  • 百度 UidGenerator:基于 Snowflake 的改进版。
  • Leaf:美团开源,号段模式和 Snowflake 双支持。
代码示例:Snowflake 算法
public class SnowflakeIdGenerator {
    private final long epoch = 1622476800000L; // 自定义时间戳
    private final long workerIdBits = 5L; // 机器ID
    private final long datacenterIdBits = 5L; // 数据中心ID
    private final long sequenceBits = 12L; // 序列号

    private final long maxWorkerId = ~(-1L << workerIdBits);
    private final long maxDatacenterId = ~(-1L << datacenterIdBits);
    private final long sequenceMask = ~(-1L << sequenceBits);

    private long workerId;
    private long datacenterId;
    private long sequence = 0L;
    private long lastTimestamp = -1L;

    public SnowflakeIdGenerator(long workerId, long datacenterId) {
        if (workerId > maxWorkerId || workerId < 0) throw new IllegalArgumentException("Worker ID out of range");
        if (datacenterId > maxDatacenterId || datacenterId < 0) throw new IllegalArgumentException("Datacenter ID out of range");
        this.workerId = workerId;
        this.datacenterId = datacenterId;
    }

    public synchronized long nextId() {
        long timestamp = System.currentTimeMillis();
        if (timestamp < lastTimestamp) throw new RuntimeException("Clock moved backwards");

        if (timestamp == lastTimestamp) {
            sequence = (sequence + 1) & sequenceMask;
            if (sequence == 0) timestamp = waitNextMillis(lastTimestamp);
        } else sequence = 0L;

        lastTimestamp = timestamp;
        return ((timestamp - epoch) << (workerIdBits + datacenterIdBits + sequenceBits))
                | (datacenterId << (workerIdBits + sequenceBits))
                | (workerId << sequenceBits)
                | sequence;
    }

    private long waitNextMillis(long lastTimestamp) {
        long timestamp = System.currentTimeMillis();
        while (timestamp <= lastTimestamp) timestamp = System.currentTimeMillis();
        return timestamp;
    }
}

1.2 数据库号段分配

  • 原理:维护一个独立的 global_id 表,分库按步长分配 ID:
    • 库 1:ID 步长为 2,从 1 开始(1, 3, 5...)。
    • 库 2:ID 步长为 2,从 2 开始(2, 4, 6...)。
示例
CREATE TABLE global_id (
    id INT PRIMARY KEY AUTO_INCREMENT,
    stub CHAR(1) NOT NULL UNIQUE
);
-- 步长设置:
SET @@auto_increment_increment = 2;
SET @@auto_increment_offset = 1;

2. 跨库跨表查询复杂性

问题描述

分库分表后,聚合查询(如总数统计、分页查询)需要跨多个分片表执行,增加了查询复杂度。

例如:

  • 查询所有订单总数,需要跨 10 个订单表聚合。
  • 按创建时间分页查询所有订单。

解决方案

2.1 使用中间件(推荐)

  • ShardingSphereMyCAT:支持 SQL 分片执行和结果合并。
  • 优点:业务代码无需修改,中间件完成分库分表逻辑。

2.2 手动分片查询

  • 按分片逐一查询数据,在业务层合并结果。
示例代码:聚合查询
public int countAllOrders() {
    int total = 0;
    for (String db : List.of("db1", "db2", "db3")) {
        String sql = "SELECT COUNT(*) FROM " + db + ".orders";
        total += jdbcTemplate.queryForObject(sql, Integer.class);
    }
    return total;
}
示例代码:跨分片分页查询
public List<Order> paginateOrders(int page, int size) {
    List<Order> allOrders = new ArrayList<>();
    for (String table : List.of("orders_1", "orders_2")) {
        String sql = "SELECT * FROM " + table + " LIMIT 100";
        allOrders.addAll(jdbcTemplate.query(sql, new OrderRowMapper()));
    }
    allOrders.sort(Comparator.comparing(Order::getCreatedAt));
    return allOrders.stream()
            .skip((page - 1) * size)
            .limit(size)
            .collect(Collectors.toList());
}

手动分片查询的方案,如果数据比较多,性能会比较差。

3. 分布式事务问题

问题描述

分布式事务(如订单表在库 A,库存表在库 B)无法使用单库事务,导致可能会出现数据的一致性问题。

解决方案

3.1 分布式事务框架

  • Seata:支持跨库的分布式事务。
  • 示例代码
@GlobalTransactional
public void createOrder(Order order) {
    orderService.saveOrder(order); // 写入库A
    stockService.reduceStock(order.getProductId()); // 更新库B
}

3.2 柔性事务

  • 使用消息中间件实现最终一致性。
  • 典型实现:RocketMQ 消息事务

4. 分片键设计问题

问题描述

分片键选择不当可能导致数据倾斜(热点问题)或查询路由效率低。

解决方案

4.1 分片键设计原则

  1. 数据分布均匀:避免热点问题。
  2. 常用查询字段:尽量选高频查询字段。

4.2 路由表

  • 维护全局路由表,映射分片键到分表。
示例代码:路由表查询
public String getTargetTable(int userId) {
    String sql = "SELECT table_name FROM routing_table WHERE user_id = ?";
    return jdbcTemplate.queryForObject(sql, new Object[]{userId}, String.class);
}

5. 数据迁移问题

问题描述

扩容(如从 4 个分片扩展到 8 个分片)时,旧数据需要迁移到新分片,迁移复杂且可能影响线上服务。

解决方案

5.1 双写策略

  • 数据迁移期间,旧表和新表同时写入。
  • 待迁移完成后,切换到新表。

5.2 增量同步

  • 使用 Canal 监听 MySQL Binlog,将数据迁移到新分片。
示例:Canal 配置
canal.destinations:
  example:
    mysql:
      hostname: localhost
      port: 3306
      username: root
      password: password
    kafka:
      servers: localhost:9092
      topic: example_topic

6. 分页查询问题

问题描述

分页查询需要从多个分片表合并数据,再统一分页,逻辑复杂度增加。

解决方案

  1. 各分片分页后合并:先按分片分页查询,业务层合并排序后分页。
  2. 中间件支持分页:如 ShardingSphere。
示例代码:跨分片分页
public List<Order> queryPagedOrders(int page, int size) {
    List<Order> results = new ArrayList<>();
    for (String table : List.of("orders_1", "orders_2")) {
        results.addAll(jdbcTemplate.query("SELECT * FROM " + table + " LIMIT 100", new OrderRowMapper()));
    }
    results.sort(Comparator.comparing(Order::getCreatedAt));
    return results.stream().skip((page - 1) * size).limit(size).collect(Collectors.toList());
}

但如果分的表太多,可能会有内存占用过多的问题,需要做好控制。

7. 运维复杂性

问题描述

分库分表后,运维难度增加:

  • 数据库实例多,监控和备份复杂。
  • 故障排查需要跨多个库。

解决方案

  1. 自动化运维平台:如阿里云 DMS。
  2. 监控工具:使用 Prometheus + Grafana 实现分片监控。

总结

分库分表本质上是“性能换复杂度”,它虽然能有效提升系统的性能和扩展性,但问题也随之而来。

分库分表后带来的问题总结如下:

问题 解决方案
全局唯一 ID 雪花算法、号段分配、Leaf
跨库跨表查询 中间件支持(如 ShardingSphere)或手动合并
分布式事务 分布式事务框架(Seata)、消息最终一致性
分片键设计问题 路由表或高效分片键
数据迁移问题 双写策略或增量同步(如 Canal)
分页查询问题 分片查询后合并排序
运维复杂性 自动化工具(DMS)、监控工具(Prometheus + Grafana)

应根据业务场景选择适合的分库分表策略,并通过工具和技术方案,解决由此带来的一些问题,最终实现系统的高性能与高可靠性。

最后说一句(求关注,别白嫖我)
如果这篇文章对您有所帮助,或者有所启发的话,帮忙关注一下我的同名公众号:苏三说技术,您的支持是我坚持写作最大的动力。

求一键三连:点赞、转发、在看。

关注公众号:【苏三说技术】,在公众号中回复:进大厂,可以免费获取我最近整理的10万字的面试宝典,好多小伙伴靠这个宝典拿到了多家大厂的offer。

标签:分库,分页,小心,查询,分片,分表,ID
From: https://www.cnblogs.com/12lisu/p/18657017

相关文章

  • 如何做到分库,具体思路设计,无障碍切换库?
    分库设计思路确定分片策略:范围分片:根据某个字段的值范围进行分片,例如按用户的ID范围。哈希分片:使用哈希函数将某个字段的值映射到不同的分片上,例如按用户的ID哈希值。列表分片:将数据按某种列表或集合的方式分片,例如按地域或业务类型分片。数据一致性:确保分库后的数据......
  • 常见不定积分表
    常函数、幂函数、指数函数\[\intkdx=kx+C\,(k\inC)\]\[\intx^adx=\frac{x^{a+1}}{a+1}+C\,(a\neq-1)\]\[\int\frac{dx}{x}=\ln{\lvertx\rvert}+C\]\[\inta^xdx=\frac{a^x}{\ln{a}}+C\]\[\inte^xdx=e^x+C\]三角函数\......
  • 【日记】昨天才找到的头绳,今天就不小心给洗了(947 字)
    正文前些周有个周末研究了一天的护发素(虽然现在已经忘光了),今天研究了半天到一天的沐浴露(所以打算写点什么记下来,免得又忘了)。研究完了之后,发现母亲原来给我买的那瓶沐浴露,是把能踩得雷都踩了一遍……甲基氯异噻唑啉酮(CMIT)和甲基异噻唑啉酮(MIT)都有,不过在成分表的位置都很......
  • MySQL 数据库优化:分区、分表与索引创建
    MySQL数据库优化:分区、分表与索引创建目录概述MySQL分区(Partitioning)2.1什么是分区?2.2使用场景2.3分区类型2.4分区维护2.5示例:创建分区表MySQL分表(Sharding)3.1什么是分表?3.2使用场景3.3分片键选择3.4示例:手动分表3.5分表的挑战MySQL索引创建4.1什么是......
  • idea mysql sharding分表分库
    水平分表引入jar包<dependency><groupId>org.apache.shardingsphere</groupId><artifactId>sharding-jdbc-spring-boot-starter</artifactId><version>4.0.0-RC1</version></dependency><dependency><gr......
  • 彻底理解数据库何时需要分表问题
    在阿里巴巴开发手册中写道:【推荐】单表行数超过500万行或者单表容量超过2GB,才推荐进行分库分表。说明:如果预计三年后的数据量根本达不到这个级别,请不要在创建表时就分库分表。大家在网上肯定看到过很多关于分库分表的情况,很多说到当数据量达到2000W行的时候就需要分库分......
  • 分库分表核心架构设计
    胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,SpringCloudAlibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度优秀作者,获得2023电......
  • 分库分表
    分库分表是为了应对海量数据或高并发场景的一种数据库架构优化技术,其核心思想是通过水平和垂直切分的方式,将数据分散到多个库或表中,提升系统的读写性能和扩展性。以下是分库分表的相关概念、策略和实现细节:分库分表的两种主要策略水平分片(Sharding)特点:将同一张表的数据按......
  • 什么是分库分表?分库分表有哪些类型(或策略)?
    什么是分库分表?分库分表是一种常用的数据库架构设计策略,用于处理数据量过大,单一数据库无法承载的情况。通过将数据分散存储到多个数据库或多个数据表中,分库分表能够有效提高数据库的扩展性、性能和可维护性。其主要目的是提升查询效率,减轻单个数据库的负载,确保系统的高可用性和高......
  • 对数据库进行分库分表可能会引发哪些问题?
    对数据库进行分库分表可能会引发的问题虽然分库分表是一种有效的扩展数据库和提升性能的策略,但在实际应用中,分库分表也可能引发一些问题和挑战。以下是分库分表可能会引发的主要问题:1.跨库查询复杂性分库分表后,数据被拆分到多个数据库和表中,导致跨库查询变得非常复杂:多表连......