第六章的主题是文件的压缩通过询问读者为什么文件可以压缩来展开文件压缩机制的讲解6.1我们可以了解到,文件是以字节为单位的保存,每个字节可以表示一个字符、一个数字或其他类型的数据。在文件系统中,文件的大小通常以字节为单位来衡量。通过对字节的读取和写入计算机可以实现对文件的创建、修改、删除、打开和关闭等操作。第二小节则告诉我们RLE机制的算法和缺点RLE是行程长度编码。这种算法是一种简单的压缩算法,他把文件内容中连续重复的数据,和重复个数进行相结合来记录,来表示压缩数据。阅读其他文本我了解到RLE算法只针对连续的字节序列压缩效果比较好,并不适合文本文件的压缩
第三小节则讲了哈夫曼算法,哈夫曼算法是1952年提出的压缩算法,其基本思想是:多次出现的数据用语小于八位的字节数来表示,不常用的数据则可以用超过八位的字节来表示。这样可以有效的减少数据的存储空间,提高数据的传输效率。儿莫尔斯编码的基本思想是把一般文本中出现频率高的字符用短编码来表示。哈夫曼算法能够大幅提升压缩比率,它是一种基于统计的最优编码方法,哈夫曼算法的核心思想是,根据数据中字符出现的频率,构建一棵哈夫曼树。这棵树的每个叶子节点代表一个字符,而树的边表示字符的编码在用枝条连接数据时我们是从出现频率较低的数据开始的,这就意味着出现频率越低的数据,到达根部的枝条数就越多。枝条数越多,编码的位数也就随之增多了
最后一小节告诉我们可逆压缩和非可逆压缩查,可逆压缩式称为无损压缩,将数据压缩并还原为原始的完全相同的状态,不丢失任何信息。非可压缩称为有损压缩,在压缩过程中会丢失一些信息,无法完全还原为原始数据。