首页 > 编程语言 >哈希算法教程(个人总结版)

哈希算法教程(个人总结版)

时间:2024-05-29 21:29:27浏览次数:18  
标签:教程 hash 哈希 self SHA 算法 key

背景

哈希算法(Hash Algorithm)是一种将任意长度的输入(也称为消息)转换为固定长度的输出(也称为哈希值、散列值、摘要)的算法。哈希算法在计算机科学中有着广泛的应用,包括数据存储、数据检索、数据完整性验证、密码学等。

哈希算法的关键特性

  1. 确定性:相同的输入总是产生相同的输出。
  2. 高效性:计算哈希值的过程应该尽可能高效。
  3. 抗碰撞性:很难找到两个不同的输入具有相同的哈希值。
  4. 抗篡改性:对于给定的哈希值,几乎不可能反推出原始输入。
  5. 均匀分布:哈希值应该均匀分布,尽量避免碰撞。

哈希算法的种类

  1. 散列函数:如常见的哈希表中的散列函数。
  2. 密码学哈希函数:如MD5、SHA-1、SHA-256等,用于数据完整性验证和密码学应用。

散列函数

散列函数用于哈希表(Hash Table)等数据结构中,将数据映射到固定大小的数组上,以实现高效的数据存储和检索。

密码学哈希函数

密码学哈希函数用于验证数据完整性、数字签名等安全应用。常见的密码学哈希函数有:

  • MD5(Message Digest Algorithm 5)
  • SHA-1(Secure Hash Algorithm 1)
  • SHA-256(Secure Hash Algorithm 256-bit)
  • SHA-3(Secure Hash Algorithm 3)

哈希算法的应用

  1. 数据存储和检索:如哈希表、数据库索引等。
  2. 数据完整性验证:如文件校验、数据传输校验等。
  3. 密码学应用:如数字签名、消息认证码等。
  4. 负载均衡:如一致性哈希算法在分布式系统中的应用。

哈希算法的实现

散列函数

简单散列函数

简单散列函数是一种基础的哈希函数,通过对每个字符的ASCII码求和,再取模数组大小,得到哈希值。

def simple_hash(key, size):
    hash_value = 0
    for char in key:
        hash_value += ord(char)
    return hash_value % size

# 示例
key = "example"
size = 10
hash_index = simple_hash(key, size)
print(f"'{key}' 的哈希值为: {hash_index}")
乘法散列法

乘法散列法使用一个常数A(通常取黄金比例),将键值乘以A,再取其小数部分,最后乘以数组大小并取整。

def multiplicative_hash(key, size):
    A = 0.6180339887  # 常数 A,通常取黄金比例
    hash_value = 0
    for char in key:
        hash_value += ord(char)
    fractional_part = (hash_value * A) % 1
    return int(size * fractional_part)

# 示例
key = "example"
size = 10
hash_index = multiplicative_hash(key, size)
print(f"'{key}' 的哈希值为: {hash_index}")

密码学哈希函数

MD5 算法

MD5(Message Digest Algorithm 5)是一种广泛使用的密码学哈希函数,产生128位的哈希值。尽管MD5在许多安全应用中已被认为不够安全,但仍然在一些非安全性场景中被广泛使用。

import hashlib

def md5_hash(data):
    md5 = hashlib.md5()
    md5.update(data.encode('utf-8'))
    return md5.hexdigest()

# 示例
data = "example"
hash_value = md5_hash(data)
print(f"'{data}' 的 MD5 哈希值为: {hash_value}")
SHA-256 算法

SHA-256(Secure Hash Algorithm 256-bit)是SHA-2(Secure Hash Algorithm 2)家族中的一种,广泛应用于安全性要求较高的场景,如区块链、数字签名等。

import hashlib

def sha256_hash(data):
    sha256 = hashlib.sha256()
    sha256.update(data.encode('utf-8'))
    return sha256.hexdigest()

# 示例
data = "example"
hash_value = sha256_hash(data)
print(f"'{data}' 的 SHA-256 哈希值为: {hash_value}")

哈希算法对比

算术均值、几何均值、调和均值与加权均值对比
算法哈希值长度安全性性能应用场景
MD5128位数据校验、非安全性场景
SHA-1160位较弱较快过去的安全应用(已不推荐)
SHA-256256位较慢高安全性场景、区块链
SHA-3可变较慢高安全性场景

优劣势分析

MD5

  • 优点:计算速度快,适合大数据量的快速校验。
  • 缺点:安全性较弱,易受碰撞攻击,不适用于安全性要求高的场景。

SHA-1

  • 优点:比MD5安全性略高。
  • 缺点:仍存在安全漏洞,不推荐用于新的安全应用。

SHA-256

  • 优点:安全性高,广泛应用于区块链和数字签名等高安全性领域。
  • 缺点:计算速度较慢,对资源要求较高。

SHA-3

  • 优点:最新的SHA算法,安全性更高,设计灵活,支持可变长度的哈希值。
  • 缺点:计算速度较慢,对资源要求高。

哈希算法应用实例

文件完整性验证

哈希算法可以用于文件的完整性验证,确保文件在传输或存储过程中没有被篡改。

import hashlib

def calculate_file_hash(file_path, algorithm='sha256'):
    hash_func = getattr(hashlib, algorithm)()
    with open(file_path, 'rb') as f:
        while chunk := f.read(4096):
            hash_func.update(chunk)
    return hash_func.hexdigest()

# 示例
file_path = 'example.txt'
hash_value = calculate_file_hash(file_path)
print(f"文件 '{file_path}' 的哈希值为: {hash_value}")

数据库索引

哈希算法可以用于数据库的索引,提高数据检索的效率。

class HashTable:
    def __init__(self, size):
        self.size = size
        self.table = [[] for _ in range(size)]

    def _hash(self, key):
        return hash(key) % self.size

    def insert(self, key, value):
        hash_key = self._hash(key)
        key_exists = False
        bucket = self.table[hash_key]
        for i, kv in enumerate(bucket):
            k, v = kv
            if key == k:
                key_exists = True
                break
        if key_exists:
            bucket[i] = (key, value)
        else:
            bucket.append((key, value))

    def search(self, key):
        hash_key = self._hash(key)
        bucket = self.table[hash_key]
        for k, v in bucket:
            if key == k:
                return v
        return None

# 示例
hash_table = HashTable(10)
hash_table.insert('key1', 'value1')
hash_table.insert('key2', 'value2')
print(f"key1: {hash_table.search('key1')}")
print(f"key2: {hash_table.search('key2')}")

一致性哈希算法

一致性哈希算法是一种特殊的哈希算法,常用于分布式系统中进行负载均衡。它将节点和数据都映射到一个虚拟的环上,通过环上的位置确定数据存储的节点。

一致性哈希算法实现

import hashlib

class ConsistentHash:
    def __init__(self, nodes=None, replicas=3):
        self.replicas = replicas
        self.ring = dict()
        self._sorted_keys = []
        if nodes:
            for node in nodes:
                self.add_node(node)

    def _hash(self, key):
        return int(hashlib.md5(key.encode('utf-8')).hexdigest(), 16)

    def add_node(self, node):
        for i in range(self.replicas):
            key = self._hash(f'{node}:{i}')
            self.ring[key] = node
            self._sorted_keys.append(key)
        self._sorted_keys.sort()

    def remove_node(self, node):
        for i in range(self.replicas):
            key = self._hash(f'{node}:{i}')
            del self.ring[key]
            self._sorted_keys.remove(key)

    def get_node(self, key):
        if not self.ring:
            return None
        hash_key = self._hash(key)
        for key in self._sorted_keys:
            if hash_key <= key:
                return self.ring[key]
        return self.ring[self._sorted_keys[0]]

# 示例
nodes = ['node1', 'node2', 'node3']
ch = ConsistentHash(nodes)

key = 'my_data_key'
node = ch.get_node(key)
print(f"'{key}' 应该映射到节点: {node}")

结论

哈希算法是计算机科学中不可或缺的重要工具,广泛应用于数据存储与检索、数据完整性验证、密码学等领域。通过对不同哈希算法的学习和实践,可以更好地理解和应用这些技术,提高系统的性能和安全性。在实际应用中,应根据具体需求选择合适的哈希算法,以充分发挥其优势。

通过本教程的详细介绍和代码示例,希望您对哈希算法有了更深入的理解,并能够在实际项目中应用这些技术。

标签:教程,hash,哈希,self,SHA,算法,key
From: https://blog.csdn.net/qq_16064553/article/details/139279273

相关文章

  • 随机森林算法教程(个人总结)
    背景随机森林(RandomForest)是一种集成学习方法,主要用于分类和回归任务。它通过构建多个决策树并将其结果进行集成,提升模型的准确性和鲁棒性。随机森林在处理高维数据和防止过拟合方面表现出色,是一种强大的机器学习算法。随机森林的基本思想随机森林由多个决策树组成,每棵树在......
  • 清华大学出版,最适合Python小白的零基础入门教程!
    伴随着云计算、大数据、AI等技术的迅速崛起,市场对Python人才的需求和市场人才的匮乏,让长期沉默的Python语言一下子备受众人的关注,再加上简单易学,使得Python一跃成为TIOBE排行榜的第一。准备学Python或者想学Python的小伙伴们可能还不晓得,Python2.x已经停止更新了,而且Python......
  • 开山之作!Python数据与算法分析手册,登顶GitHub!
    若把编写代码比作行军打仗,那么要想称霸沙场,不能仅靠手中的利刃,还需深谙兵法。Python是一把利刃,数据结构与算法则是兵法。只有熟读兵法,才能使利刃所向披靡。只有洞彻数据结构与算法,才能真正精通Python今天给小伙伴们分享的这份手册,是用Python描述数据结构与算法的开山之作,透彻......
  • 多A*算法路径规划(附MATLAB代码)
     A*算法介绍A*算法是一种常用的寻路算法,被广泛应用于人工智能和游戏开发中。该算法通过评估每个节点的代价和启发式函数来找到最佳路径。在这篇博文中,我们将深入探讨A*算法的原理。A*算法的核心思想是在搜索过程中综合考虑两个因素:已经花费的代价和还需要花费的代价。具体而......
  • PSO算法路径规划(附MATLAB代码)
    粒子群优化(PSO)算法一种启发式优化算法,灵感来源于鸟群或鱼群等群体智能行为的模拟。PSO算法最早由Kennedy和Eberhart于1995年提出,通常用于解决搜索空间连续、高维的优化问题。PSO算法模拟了鸟群中鸟类搜索食物的行为。在PSO算法中,候选解称为粒子,每个粒子通过搜索空间中移动来......
  • Redis篇 哈希表在redis中的命令
    哈希命令一.哈希表的基本认识二.哈希表在redis中的命令1.hset,hget2.hdel3.hkeys,hvals4.hexists5.hgetall6.hmget7.hlen8.hincrby和hincrbyfloat一.哈希表的基本认识在JAVA数据结构中,我们就已经接触到了哈希表,在当时,我们主要用到的哈希表是一次探测法,二次探测......
  • Java数据结构与算法(红黑树)
    前言红黑树是一种自平衡二叉搜索树,确保在插入和删除操作后,树的高度保持平衡,从而保证基本操作(插入、删除、查找)的时间复杂度为O(logn)。实现原理红黑树具有以下性质:每个节点要么是红色,要么是黑色。根节点是黑色的。每个叶子节点(NIL节点,通常是空节点)是黑色的。如果一个节点......
  • Java数据结构与算法(散列表)
    前言散列表是根据关键码值(Keyvalue)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。而key的冲突主要通过链表的方式来处理,后期链表过长情况下可以通过红黑树来优化查询效率。实现原理散列函数(HashFunction):散列函数......
  • Java数据结构与算法(B+树)
    前言B+树(B+Tree)是一种平衡树数据结构,广泛用于数据库和文件系统中。它是一种自平衡的树结构,每个节点包含多个键,并且所有键都是排序的。B+树的叶子节点包含指向相邻叶子节点的指针,这使得范围查询非常高效。B+树的优点1.由于B+树在非叶子结点上不包含真正的数据,只当做索引使用......
  • P9 【力扣+知识点】【算法】【二分查找】C++版
    【704】二分查找(模板题)看到复杂度logN,得想到二分给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target  ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。示例1:输入:nums=[-1,0,3,5,9,12],target=9输出:4解释:9出现在......