一,文件是以字节为单位记录的,文件是字节数据的集合体,文件就是一串连续的字节数据
二,游程编码的原理
将文件内容用数据成重复次数的方式进行压缩,就是游程编码
缺点:对于图片压缩率比较高,对于文本,文件则会增加它的内容,使他文本需内存量更大
三,哈夫曼算法
哈夫曼算法
将出现次数多的数据用小于巴比特的编码表示,次数少的用于大于巴比特的编码,表示最终无论大小均用巴比特为单位存储,在文件中能够有效的压缩文本文件
四,使用数来构建哈夫曼编码
第一步,将数据按出现的频率排序
第二步,选择出现频率最多的两个数据向上拉出两条线,合并分支将两者的频率相加。作为上侧节点的频率,如果频率最低的选项有多个任选两个即可
第三步,重复第二步,任意位置两个数据均可合并
第四步,当智胜跟上最后一个数据时,哈夫曼数就构建完成了。现在我们从根出发,在分支上写零在右,分支上写一将从根出发到达目标字符,所经路径上的0和1按顺序排列就能得到这个字符的哈夫曼编码
五,有损压缩和无损压缩
文本文件不可有损压缩
图片压缩后多会有损
以上是我对第六章的内容的梳理