首页 > 编程语言 >Boyer-Moore 投票算法:高效发现多数元素的艺术

Boyer-Moore 投票算法:高效发现多数元素的艺术

时间:2024-09-09 17:22:13浏览次数:13  
标签:count 遍历 Moore nums 元素 算法 num Boyer 候选人

Boyer-Moore 投票算法:高效发现多数元素的艺术

Boyer-Moore 投票算法,一种在数据科学领域中备受推崇的算法,以其寻找数组中“多数元素”的高效能力而闻名。所谓“多数元素”,是指在给定数组中出现次数超过一半的元素。这种算法由 Robert S. Boyer 和 J Strother Moore 两位杰出的计算机科学家在 1981 年提出,自那以后,它便以其简洁而强大的特性,成为了解决实际问题中不可或缺的工具。

算法原理:巧妙的投票机制

Boyer-Moore 投票算法的核心思想是巧妙而高效的。它通过两次遍历数组的过程,首先找出一个可能是多数元素的候选人,然后在第二次遍历中验证这个候选人是否真的是多数元素。Boyer-Moore 投票算法的巧妙之处在于,它只使用了一个计数器就实现了对潜在的多数元素的追踪,并且能够在遍历数组的过程中动态地调整候选人。

在第一次遍历中,算法初始化一个计数器和一个候选元素。每当遇到一个新的元素,如果计数器为零,它就将这个元素设为当前的候选人。如果遇到的元素与当前的候选人相同,计数器就增加;如果不同,计数器就减少。这样,当第一次遍历结束时,计数器不为零的情况下,当前的候选人就是数组中的一个潜在多数元素。

第二次遍历则是为了验证这个候选人是否真的是多数元素。算法会重新计数这个候选人在数组中出现的次数。如果这个次数超过了数组长度的一半,那么这个候选人就是多数元素;如果没有,那么数组中不存在多数元素。

实现代码

Boyer-Moore 投票算法的 Python 实现代码:

def majority_element(nums):
    candidate = None
    count = 0

    # 第一遍遍历,找到候选人
    for num in nums:
        if count == 0:
            candidate = num
            count = 1
        elif num == candidate:
            count += 1
        else:
            count -= 1

    # 第二遍遍历,验证候选人
    count = 0
    for num in nums:
        if num == candidate:
            count += 1

    if count > len(nums) // 2:
        return candidate
    else:
        return None

Boyer-Moore 投票算法的 C 实现代码:

int majority_element(int* nums, int numsSize) {
    int candidate = 0;
    int count = 0;

    // 第一遍遍历,找到候选人
    for (int i = 0; i < numsSize; i++) {
        if (count == 0) {
            candidate = nums[i];
            count = 1;
        } else if (nums[i] == candidate) {
            count++;
        } else {
            count--;
        }
    }

    // 第二遍遍历,验证候选人
    count = 0;
    for (int i = 0; i < numsSize; i++) {
        if (nums[i] == candidate) {
            count++;
        }
    }

    if (count > numsSize / 2) {
        return candidate;
    } else {
        return -1;
    }
}

算法分析

  • 时间复杂度:O(n)
  • 空间复杂度:O(1)

变体问题:寻找前 k 个多数元素

在某些情况下,我们可能需要找到数组中出现次数超过 n/k 的所有元素,其中 n 是数组的长度,k 是一个给定的整数。这种情况下,可以使用 Boyer-Moore 投票算法的多候选人版本。

算法步骤:

  1. 初始化 k 个候选人和 k 个计数器。

  2. 遍历数组,对于每个元素num

    • 如果 num 是当前的候选人之一,增加对应的计数器。
    • 如果 num 不是当前的候选人之一,并且有空闲的候选人位置,将 num 添加为新的候选人,并将对应的计数器设置为 1
    • 如果 num 不是当前的候选人之一,并且没有空闲的候选人位置,减少所有候选人的计数器。
  3. 遍历结束后,验证所有候选人的计数器是否超过 n/k,找出所有满足条件的候选人。

变体问题的 Python 实现代码:

def majority_elements(nums, k):
    if k < 2:
        return []

    # 初始化候选人和计数器
    candidates = {}
    for num in nums:
        if num in candidates:
            candidates[num] += 1
        elif len(candidates) < k - 1:
            candidates[num] = 1
        else:
            for key in list(candidates.keys()):
                candidates[key] -= 1
                if candidates[key] == 0:
                    del candidates[key]

    # 验证候选人
    counts = {key: 0 for key in candidates}
    for num in nums:
        if num in counts:
            counts[num] += 1

    result = []
    for key, count in counts.items():
        if count > len(nums) // k:
            result.append(key)

    return result

LeeCode相关题目:
169. 多数元素
229. 多数元素 II
2404. 出现最频繁的偶数元素
1287. 有序数组中出现次数超过25%的元素

标签:count,遍历,Moore,nums,元素,算法,num,Boyer,候选人
From: https://blog.csdn.net/qq_45641147/article/details/141965593

相关文章

  • React diff算法原理
    React使用一种称为“Reconciliation”的过程来确定虚拟DOM树中的哪些部分发生了变化,从而最小化实际DOM更新的工作量。这个过程的核心是实现了一个高效的diff算法,通常被称为“Fiber”机制的一部分。虽然它并不完全等同于经典的diff算法(如Myers’diffalgorithm......
  • 算法与数据结构——图简介
    图图(graph)是一种非线性数据结构,由顶点(vertex)和边(edge)组成。我们可以将图G抽象地表示为一组顶点V和一组边E的集合。以下示例展示了一个包含5个顶点和7条边的图。如果将顶点看做节点,将边看做连接各个节点的引用(指针),我们就可以将图看作一种从链表拓展而来的数据结构。如下图,相较于......
  • tarjan—算法的神(一)cw
    本篇包含tarjan求强连通分量、边双连通分量、割点部分,tarjan求点双连通分量、桥(割边)在下一篇。伟大的RobertTarjan创造了众多被人们所熟知的算法及数据结构,最著名的如:(本文的)连通性相关的tarjan算法,Splay-Tree,Toptree,tarjan求lca等等。注:有向图的强连通分量、无向......
  • 负载均衡算法
    本文主要介绍常用的负载均衡算法和Nginx中支持的负载均衡算法。@pdai常见的负载均衡算法轮询法(RoundRobin)加权轮询法(WeightRoundRobin)随机法(Random)加权随机法(WeightRandom)源地址哈希法(Hash)最小连接数法(LeastConnections)Nginx的5种负载均衡算法......
  • 数据结构与算法(三)线性表的定义与抽象数据类型
    目录一、感受线性表的存在二、线性表的定义三、考题模拟1、请问公司的组织架构是否属于线性关系?2、那么班级同学的友谊呢?3、那么班级的点名册是不是线性表?四、抽象数据类型1、数据类型的定义:2、抽象数据类型一、感受线性表的存在    从这一篇开始,我们将介......
  • 2025秋招NLP算法面试真题(十九)-大模型分布式训练题目
    分布式训练题目1.理论篇1.1训练大语言模型存在问题?计算资源需求**:**训练大型语言模型需要大量的计算资源,包括高端GPU、大量的内存和高速存储器。这可能限制了许多研究人员和组织的训练能力,因为这些资源通常很昂贵。数据需求**:**训练大型语言模型需要大规模的数......
  • 2025秋招NLP算法面试真题(十八)-大模型训练数据格式常见问题
    1.SFT(有监督微调)的数据集格式?对于大语言模型的训练中,SFT(SupervisedFine-Tuning)的数据集格式可以采用以下方式:输入数据:输入数据是一个文本序列,通常是一个句子或者一个段落。每个样本可以是一个字符串或者是一个tokenized的文本序列。标签数据:标签数据是与输入数据对应的......
  • 算法:插入排序
    一、思路插入排序:通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应的位置并插入。如果输入数组已经是排好序的话,插入排序出现最佳情况,其运行时间是输入规模的一个线性函数。如果输入数组是逆序排列的,插入排序出现最坏情况。平均情况与最坏情况一样,其时......
  • tarjan—算法的神(一)
    本篇包含tarjan求强连通分量、边双连通分量、割点部分,tarjan求点双连通分量、桥(割边)在下一篇。伟大的RobertTarjan创造了众多被人们所熟知的算法及数据结构,最著名的如:(本文的)连通性相关的tarjan算法,Splay-Tree,Toptree,tarjan求lca等等。注:有向图的强连通分量、无向......
  • 磁盘调度算法
    磁盘调度算法先来先服务FCFS根据进程请求访问磁盘的先后顺序进行调度。最短寻道时间优先SSTF其要求访问的磁道与当前磁头所在的磁道距离最近。电梯调度算法SCAN首先自里向外访问,下一个对象是其欲访问的磁道既在当前磁道之外,又是距离最近的;直至无更外的磁道需要访问时,才......