首页 > 其他分享 >力扣-187. 重复的DNA序列

力扣-187. 重复的DNA序列

时间:2024-07-14 18:51:27浏览次数:19  
标签:子串 10 hash int 力扣 187 哈希 字符串 DNA

1.题目

题目地址(187. 重复的DNA序列 - 力扣(LeetCode))

https://leetcode.cn/problems/repeated-dna-sequences/

题目描述

DNA序列 由一系列核苷酸组成,缩写为 'A''C''G' 和 'T'.。

  • 例如,"ACGAATTCCG" 是一个 DNA序列

在研究 DNA 时,识别 DNA 中的重复序列非常有用。

给定一个表示 DNA序列 的字符串 s ,返回所有在 DNA 分子中出现不止一次的 长度为 10 的序列(子字符串)。你可以按 任意顺序 返回答案。

 

示例 1:

输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC","CCCCCAAAAA"]

示例 2:

输入:s = "AAAAAAAAAAAAA"
输出:["AAAAAAAAAA"]

 

提示:

  • 0 <= s.length <= 105
  • s[i]=='A''C''G' or 'T'

2.题解

2.1 哈希表

思路

使用substr截取子串,使用哈希表计算出现次数,出现次数为两次的计数(超过的不重复计数)

代码

  • 语言支持:C++

C++ Code:


class Solution {
    const int L = 10;
public:
    vector<string> findRepeatedDnaSequences(string s) {
        vector<string> ans;
        unordered_map<string, int> cnt;
        int n = s.length();
        for (int i = 0; i <= n - L; ++i) {
            string sub = s.substr(i, L);
            if (++cnt[sub] == 2) {
                ans.push_back(sub);
            }
        }
        return ans;
    }
};


复杂度分析

令 n 为字符串长度,L为子串长度10。

  • 时间复杂度:\(O(nL)\), 由于使用 String 作为 Key 会重复计算散列值
  • 空间复杂度:O(N)。

如果我们期望做到严格 ,进行计数的「哈希表」就不能是以 String 作为 key,
只能使用 Integer(也就是 hash 结果本身)作为 key。
因为 String 的 hashCode 实现是会对字符串进行遍历的,这样哈希计数过程仍与长度有关,
而 Integer 的 hashCode 就是该值本身,这是与长度无关的。

2.2 滑动窗口 + 位运算 + 哈希表

思路

由于每次进行substr操作,都需要O(L)的时间复杂度,
我们考虑使用滑动窗口 + 哈希表进行优化:
由于 L <= 10, 且只有可能出现四个字母 A C G T
我们考虑直接使用字符串处理的话,每次需要截取第一个字符,再添加后一个字符,反而操作更麻烦了
所以我们考虑将字符串操作改为位操作,将 A(00) C(01) G(10) T(11) 进行转换(位操作对于维护滑动窗口十分友好,只要通过简单的位移操作便能达到维护的效果)
则为一个字符占据两位bit,L<=10, 最多占据20位,int总共32位,完全足够!
我们具体的维护操作:
1.将窗口整体前移一个位置(也就是我们维护的int向左移动两个bit,一个字符占据两个bit!)
2.将新的字符加进来(使用或运算,填补到之前前移产生的空位上)
3.将老的字符去除,只保留后20位的值(使用与运算,& ((1 << 20) - 1) = & (01111111111...))
不断重复,同时维护哈希表,找到重复出现两次以上的。

代码

class Solution {
    const int L = 10;
    unordered_map<char, int> bin{{'A', 0}, {'C', 1}, {'G', 2}, {'T', 3}};
public:
    vector<string> findRepeatedDnaSequences(string s) {
        vector<string> ans;
        unordered_map<int, int> cnt;
        int n = s.length();
        // 初始化(最后一个放在下面一起处理,不要等号=)
        int x = 0;
        for(int i = 0; i < L - 1; i++){
            x = (x << 2) | bin[s[i]];
        }
        // 处理长度为L的子串(或运算加上新的字符,与运算去除旧的第一个字符,实现滑动窗口)
        for (int i = L - 1; i < n; ++i) {
            x = ((x << 2) | bin[s[i]]) & ((1 << 20) - 1);
            if (++cnt[x] == 2) {
                ans.push_back(s.substr(i - L + 1, L));
            }
        }
        return ans;
    }
};

复杂度分析

令 n 为字符串长度,L为子串长度10。

  • 时间复杂度:O(N),其中 N 是字符串 s 的长度。
  • 空间复杂度:O(N)。

2.3 字符串哈希(滚动哈希)

思路

总体思路和2.2是一样的,但是2.2中的思路适用于字符数较少的情况,比如像这里只有4个字符,如果字符数较多就不好用位运算处理了
所以我们就不使用位运算,使用更为通用的滚动哈希算法(基础原理——前缀和)

滚动哈希算法的核心思想是通过预计算和利用前一个子串的哈希值来快速计算出下一个子串的哈希值。
这在子串比较中可以极大地提升效率,可以常数时间内计算出字符串的哈希值,

要想求出任意一段连续子串的hashCode,其想法类似于前缀和(这里的b为选择的基数,p为所选择的模数)
hash[r]与hash[l - 1]中间相差了一定长度的字符串,其长度为r - l + 1
所以通过求出pow(b, r - l + 1),就可以求出从l到r的hashCode
hashCode(l, r) = hash[r] - hash[l - 1] * pow(b, r - l + 1)
但注意的是,还需要对p取模,并且由于是hashCode之间相减,得到的hashCode有可能是负数
所以hashCode(l, r) = ((hash[r] - hash[l - 1] * pow(b, r - l + 1)) % p + p) % p

因此一个能够做到严格 \(O(n)\) 的做法是使用「字符串哈希 + 前缀和」。
具体做法为,我们使用一个与字符串 s 等长的哈希数组 h[] ,以及次方数组 p[]。
由字符串预处理得到这样的哈希数组和次方数组复杂度为\(O(n)\)。
当我们需要计算子串s[i...j]的哈希值,只需要利用前缀和思想 h[j] - h[i-1] * p[j - i + 1]即可在 \(O(1)\) 时间内得出哈希值(与子串长度无关)。

代码

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        if (s.length() < 10) return {};

        int P = 11111; // 基数
        long long MOD = 1e9 + 7; // 模数
        long long hash = 0, power = 1; // 哈希值, 位权
        unordered_map<long long, int> seenHashes;
        vector<string> result;

        // 计算第一个长度为10的子串的哈希值
        for (int i = 0; i < 10; ++i) {
            hash = (hash * P + s[i]) % MOD; // 计算哈希值
            power = (power * P) % MOD; // 求最高位的位权,不直接用pow是防止溢出
        }
        seenHashes[hash] = 1; // 使用哈希值作为键,出现次数作为值

        // 滚动哈希计算其余子串的哈希值
        for (int i = 10; i < s.length(); ++i) {
            // 去除旧字符串第一位(需要乘以相应位权)加上新的一个字符放在最后 防止出现负数+MOD
            hash = (hash * P + s[i] - s[i - 10] * power % MOD + MOD) % MOD;
            if (seenHashes[hash] == 1) {
                result.push_back(s.substr(i - 9, 10));
            }
            seenHashes[hash]++;
        }

        return result;
    }
};

备注

  1. 字符串哈希的「构造 数组」和「计算哈希」的过程,不会溢出吗?
    在Java中会溢出,溢出就会变为负数,
    当且仅当两个哈希值溢出程度与 Integer.MAX_VALUE 呈不同的倍数关系时,会产生错误结果(哈希冲突),
    此时考虑修改 P 或者采用表示范围更大的 long 来代替 int。

但是在C++中,我们选择使用模数求余来避免溢出的情况。

  1. 这个数字是怎么来的?
    WA 出来的,刚开始使用的 131 ,被卡在了 30/31 个样例。
    字符串哈希本身存在哈希冲突的可能,一般会在尝试 131 之后尝试使用 13131,然后再尝试使用比 13131 更大的质数。
    但选择发现11111最好,直接通过。

标签:子串,10,hash,int,力扣,187,哈希,字符串,DNA
From: https://www.cnblogs.com/trmbh12/p/18301825

相关文章

  • 力扣-81. 搜索旋转排序数组 II
    1.题目题目地址(81.搜索旋转排序数组II-力扣(LeetCode))https://leetcode.cn/problems/search-in-rotated-sorted-array-ii/题目描述已知存在一个按非降序排列的整数数组nums,数组中的值不必互不相同。在传递给函数之前,nums在预先未知的某个下标k(0<=k<nums.length)上......
  • 力扣·33. 搜索旋转排序数组
    1.题目题目地址(33.搜索旋转排序数组-力扣(LeetCode))https://leetcode.cn/problems/search-in-rotated-sorted-array/题目描述整数数组nums按升序排列,数组中的值互不相同。在传递给函数之前,nums在预先未知的某个下标k(0<=k<nums.length)上进行了旋转,使数组变为[n......
  • 力扣-278. 第一个错误的版本
    1.题目题目地址(278.第一个错误的版本-力扣(LeetCode))https://leetcode.cn/problems/first-bad-version/题目描述你是产品经理,目前正在带领一个团队开发新的产品。不幸的是,你的产品的最新版本没有通过质量检测。由于每个版本都是基于之前的版本开发的,所以错误的版本之后的所......
  • 力扣 657. 机器人能否返回原点
    题目内容在二维平面上,有一个机器人从原点 (0,0) 开始。给出它的移动顺序,判断这个机器人在完成移动后是否在 (0,0) 处结束。移动顺序由字符串 moves 表示。字符 move[i] 表示其第 i 次移动。机器人的有效动作有 R(右),L(左),U(上)和 D(下)。如果机器人在完成所有动作后返......
  • 力扣 682. 棒球比赛
    题目内容你现在是一场采用特殊赛制棒球比赛的记录员。这场比赛由若干回合组成,过去几回合的得分可能会影响以后几回合的得分。比赛开始时,记录是空白的。你会得到一个记录操作的字符串列表 ops,其中 ops[i] 是你需要记录的第 i 项操作,ops 遵循下述规则:整数 x -表示本......
  • 数据结构(Java):队列&集合Queue&力扣面试OJ题
    1、队列1.1队列的概念队列是一个特殊的线性表,只允许在一端(队尾)进行插入数据操作,在另一端(对头)进行删除数据。队列具有先进先出FIFO(FirstInFirstOut)的特性。入队:数据只能从队尾进队列    出队:数据只能从对头出队列即:队尾进队头出我们可以把队列想象为一个排队......
  • 算法力扣刷题记录 四十三【最大、最小深度问题】
    前言本文学习树的深度问题:二叉树(N叉树)最大深度、最小深度;记录三十九【层序遍历模版应用二】中解决过二叉树的最大深度和最小深度题目。思路是按层遍历:最大深度,相当于层序遍历结束;最小深度,相当于层序遍历过程中判断节点是不是叶子节点。那么此处的深度,还有什么知识点?......
  • 精选力扣,牛客链表面试题
    ......
  • 微量样本及单细胞DNA甲基化研究如何发高分SCI文章(特别适用珍稀样本)
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。单细胞及微量样本的DNA甲基化组学研究很大程度上受制于建库技术。传统的文库构建方法或类似于基因组DNA的单细胞扩增技术很难应用到甲基化实验过程中。易基因建立了一系列微量及单细胞甲基化检测方法,可对于不同项目需......
  • 关于力扣150题目——逆波兰表达式求值Java实现的三种解法
    题目介绍逆波兰表达式是一种后缀表达式,其运算符位于操作数之后。力扣150题目要求我们实现一个函数,计算给定逆波兰表达式的值。本文将介绍三种不同的Java实现方法来解决这个问题。解法一:使用栈这是最直观和常见的解法,使用栈来存储操作数,并在遇到运算符时从栈中弹出操作数......