📜  数据压缩简介

📅  最后修改于: 2022-05-13 01:57:02.669000             🧑  作者: Mango

数据压缩简介

在本文中,我们将讨论数据压缩的概述,并讨论其方法说明,还将涵盖概述部分熵。让我们一一讨论。

概述 :
一个重要的研究领域是数据压缩。它涉及以紧凑形式存储信息的艺术和科学。人们会注意到许多压缩包用于压缩文件。压缩降低了存储成本,提高了算法速度,降低了传输成本。压缩是通过去除冗余来实现的,即重复不必要的数据。编码冗余是指由于次优编码技术导致的冗余数据。

方法说明:

  • 为了说明这种方法,我们假设有六个符号,并且使用二进制代码为每个符号分配一个唯一的地址,如下表所示
  • 二进制码需要至少三位来编码六个符号。还可以观察到,二进制代码 110 和 111 根本没有使用。这清楚地表明二进制代码效率不高,因此需要一个有效的代码来分配唯一的地址。
SymbolsW1W2W3W4W5W6
Probability0.30.30.10.10.080.02
Binary code000001010011100101
  • 一种有效的代码是使用最少数量的比特来表示任何信息的代码。二进制码的缺点是它是固定码;霍夫曼代码更好,因为它是可变代码。
  • 编码技术与熵和信息内容的概念有关,这些概念被称为信息论。信息论还处理消息中存在的不确定性,称为信息内容。信息内容如下
log2 (1/pi) or -log2 pi . 

熵:

  • 熵被定义为信息中存在的有序性的度量。给出如下:
H= - ∑ pi log2 pi
  • 熵是一个正数,它指定编码信息所需的最小位数。因此,编码冗余被给出为用于编码的平均比特数与熵之间的差异。
coding redundancy = Average number of bits - Entropy
  • 通过消除冗余,可以以紧凑的方式存储任何信息。这是数据压缩的基础。