首页 > 编程语言 >Python工具箱系列(十六)

Python工具箱系列(十六)

时间:2022-11-29 15:46:10浏览次数:39  
标签:文件 hashlib Python 摘要 十六 算法 工具箱 md5 MD5

前面介绍了对称加密算法,本文将介绍密码学中另一类重要应用:消息摘要(Digest),什么是消息摘要?简单的定义是:对一份数据,进行一个单向的Hash函数,生成一个固定长度的Hash值,这个值就是这份数据的摘要,也称为指纹。

常见的摘要算法有:

  • MD5
  • SHA1
  • SHA256
  • 其它

特点如下:

 

  • 无论输入的消息有多长,计算出来的消息摘要的长度总是固定的。例如应用MD5算法摘要的消息有128个比特位,一般认为,摘要的最终输出越长,该摘要算法就越安全。变长输入,定长输出。

  • 一般地,只要输入的消息不同,对其进行摘要以后产生的摘要消息也必不相同;但相同的输入必会产生相同的输出。

  • 消息摘要函数是单向函数,即只能进行正向的信息摘要,而无法从摘要中恢复出任何的消息,甚至根本就找不到任何与原信息相关的信息。

  • 优秀的摘要算法,没有人能从中找到“碰撞”,即无法找到两条不同的消息,使它们的摘要相同。

在python3中,关于hash加密算法都放在hashlib这个标准库中,如SHA1、SHA224、SHA256、SHA384、SHA512和MD5算法等。md5算法以前单列,而在python3的标准库中,也放在hashlib库中。在不同的平台上hashlib的能力不同,使用以下代码进行检测。

import hashlib

def capacity():
    print(hashlib.algorithms_guaranteed)
    print(hashlib.algorithms_available)
    
capacity()

MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又称摘要算法、哈希算法)。

MD5算法具有以下特点:

 

  • 压缩性:任意长度的数据,算出的MD5值长度都是固定的。

  • 容易计算:从原数据计算出MD5值很容易。

  • 抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。

  • 强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。

MD5算法虽然应用广泛,但是它也有重大缺陷。

 

  • 2010年CMU软件工程机构认为MD5摘要算法已经在密码学上被破译并且不适合使用。

  • 2012年恶意软件利用了MD5的漏洞并伪造了微软的数字签名。

虽然md5存在重大问题,但在普通环境下,md5并非完全不可用,从时间、成本以及要处理对象综合考虑,仍然可以用md5做一些基本的工作。下面演示md5算法库的使用演示。

import hashlib

def md5_demo(inputstr,codingname):
    return hashlib.md5(inputstr.encode(encoding=codingname)).hexdigest()
    
codingnamelist = ['UTF-8','GBK','GB2312','GB18030']
data = ['欢迎关注陕西华路','stay hungry stay foolish']

for item in data:
    print(item)
    for cdn in codingnamelist:
        print(md5_demo(item,cdn))
    print()

这段代码演示了中文与英文字符串,在使用不同编码方式下生成的不同的md5值。对于中文而言,不同的编码会导致不同的输出。

欢迎关注陕西华路
5da5f58a3f902c739c3860b28afed47c
de60ee00e3144efbd37c38f1f6579fa8
de60ee00e3144efbd37c38f1f6579fa8
de60ee00e3144efbd37c38f1f6579fa8

可以看出,使用UTF-8编码会与其它编码产生不同的MD5值。而对于英文来说,则没有区别。

stay hungry stay foolish
d0653ce06bdc9fad39d9ac2312eb8b34
d0653ce06bdc9fad39d9ac2312eb8b34
d0653ce06bdc9fad39d9ac2312eb8b34
d0653ce06bdc9fad39d9ac2312eb8b34

md5算法除了对字符串外,对于任何字节流对象都可以使用,尤其对文件的处理更是极为有用,例如:

  • 下载文件时进行确认。从互联网下载文件时,为了确保文件下载时没有出现错误,或者被篡改(植入病毒),可以对下载后的文件进行md5的计算,并且与提供者发布的md5值进行比较,如果相同则可以放心使用。

  • 对目录下的不同名称的文件去重。相对于根据文件名称、大小与时间这些非常容易变化的不可靠信息来说,对文件进行md5计算去重是非常准确的。相同的md5可以确定(极小概率不正确)是相同的文件。假设一个图片文件,被多次复制更名成为不同的文件名,经过md5计算完全可以判断为同一个文件。

对文件的md5计算也非常简单,以下代码简单的演示了主要代码片断。

    @property
    def md5(self) -> str:
        """
        对文件做MD5操作,并且返回对应的MD5值

        Returns:
            str: md5
        """
        with self._filename.open('rb') as fr:
            return hashlib.md5(fr.read()).hexdigest()

使用默认的方式对所有文件进行相同的md5计算,就不必顾及编码格式了。

 

标签:文件,hashlib,Python,摘要,十六,算法,工具箱,md5,MD5
From: https://www.cnblogs.com/shanxihualu/p/16935554.html

相关文章

  • 拓端tecdat|Python代写中用PyTorch机器学习分类预测银行客户流失模型
    Python中用PyTorch机器学习分类预测银行客户流失模型  分类问题属于机器学习问题的类别,其中给定一组功能,任务是预测离散值。分类问题的一些常见......
  • python中time模块的常用方法的转换关系图
      获取当前的时间戳  把时间戳转换成了时间的格式  获取时间  把时间格式数据转换为易识别的字符串 获取到表示时间的字符串,再转换为时间数据。 ......
  • python的几种字符串分割方法(partition)
    split最常用的方法re.splitsplitlines按行进行分割partition#使用split进行分割是,若分割符合不存在,会返回一个列表,含有一个元素'abc'.split('d')#['abc']#......
  • 机器学习之Python-numpy(where函数)
    1.numpy中的where函数是一个具有条件的真假语句(有点类似if三元表达)。简单讲,就是判断条件是否为真,为真执行一个条件,为假执行一个条件。where函数相关官网:https://......
  • python,进程线程
    一、什么是进程/线程https://blog.csdn.net/qq_69447411/article/details/1263134261、引论众所周知,CPU是计算机的核心,它承担了所有的计算任务。而操作系统是计算机......
  • nmon+python 基于AIX系统数据分析
    ​​https://sourceforge.net/projects/pynmongraph/​​ github:​​https://github.com/madmaze/pyNmonAnalyzer​​  nmon sourceforge:​​https://sourceforge.......
  • Python 使用json存储数据
    一、前言很多程序都要求用户输入某种信息,如让用户存储游戏首选项或提供要可视化的数据。不管专注的是什么,程序都把用户提供的信息存储在列表和字典等数据结构中。用户关闭......
  • python 学习记录(5)-变量、模块名的命名规则及random模块使用
    学习:Python开发技术祥解源文件\02\2.2\2.2.1#!/usr/bin/python#-*-coding:UTF-8-*-#变量、模块名的命名规则#Filename:ruleModule.py_rule="ruleinformation......
  • Python——批量将PDF文件转为图片
    前言这里是只将pdf文件的前两页进行了转换;内容importfitz#pipinstallpymupdfimportosdefpdf2img(pdf_path,zoom_x,zoom_y):doc=fitz.open(pdf_pa......
  • python爬虫是什么?爬虫可以分为哪几类?
    众所周知,Python是一门脚本语言,也被称为胶水语言,其应用领域也是十分广泛的,哪怕你不想从事IT行业,学习Python语言也是百利而无一害的,今天给大家详细介绍下Python网络爬虫究......