数据结构之哈夫曼树与哈夫曼编码

一、背景

编码是信息处理的基础(重新表示信息)。
普通的编码是等长编码,例如7位的ASCIL编码,对出现频率不同的字符都使用相同的编码长度。但其在传输和存储等情况下编码效率不高
可使用不等长编码,来压缩编码:高频字符编码长度更短,低频字符编码长度更长。
 
[例] 将百分制的考试成绩转换成五分制的成绩
数据结构之哈夫曼树与哈夫曼编码0
按顺序分别编码。
数据结构之哈夫曼树与哈夫曼编码0
按频率分别编码(高频短编码,类似于香农熵衡量随机变量的编码长度下界)。
这种贪心思想,可以找到一种平均最短编码长度-霍夫曼编码。可将构造平均最短编码转化为,构造平均查找长度最小的编码树(构造更有效的搜索树)

二、哈夫曼树

哈夫曼树的定义
数据结构之哈夫曼树与哈夫曼编码0
带权路径长度就是所有叶子节点的编码长度乘以权重的和。 希望权重越高的叶子节点,编码长度越小。
[例] 有五个叶子结点,它们的权值为{1,2,3,4,5},用此权值序列可以构造出形状不同的多个二叉树。
数据结构之哈夫曼树与哈夫曼编码0
哈夫曼树的构造
初始全是只有一个节点的树构成的森林 (优先队列存放树的根节点,每次合并后将新的树插入队列)
数据结构之哈夫曼树与哈夫曼编码0
每次把权值最小的两棵二叉树合并 (自底向上)
 
使用最小堆,Huffman树为二叉树
typedef struct TreeNode *HuffmanTree;
struct TreeNode{
    int Weight;
    HuffmanTree Left, Right;
};

/* WPL WeightPathLength Cost越小编码越有效, O(NlogN) */ 
HuffmanTree Huffman( MinHeap H )
{ 
  /* 假设H->Size个权值已经存在H->Elements[]->Weight里 */
    int i; 
    HuffmanTree T;
    BuildMinHeap(H); /* 将H->Elements[]按权值调整为最小堆 */
    /* 做 H->Size - 1 次合并 */
    for (i = 1; i < H->Size; i++) 
{ 
         T = malloc( sizeof( struct TreeNode) ); /* 建立新结点 */        
         T->Left = DeleteMin(H);  /* 从最小堆中删除一个结点,作为新T的左子结点 */
         
         T->Right = DeleteMin(H);
 /* 从最小堆中删除一个结点,作为新T的右子结点 */        
         T->Weight = T->Left->Weight + T->Right->Weight; /*计算新权值*/

         Insert( H, T ); /*将新T插入最小堆*/
     }
     T = DeleteMin(H);
     
    return T;


int WPL( HuffmanTree H )
{
    return H->Weight;
}

  

哈夫曼树的特点
  • 没有度为1的结点;
  • 哈夫曼树的任意非叶节点的左右子树交换后仍是哈夫曼树;
  • n个叶子结点的哈夫曼树共有2n-1个结点;
对同一组权值{w1 ,w2, …… , wn},是否存在不同构的两棵哈夫曼树呢?存在,当存在相同权值的根节点时。
对一组权值{ 1, 2 , 3, 3 }},不同构的两棵哈夫曼树:
数据结构之哈夫曼树与哈夫曼编码0
哈夫曼编码
给定一段字符串,如何对字符进行编码,使得该字符串的编码存储空间最少?
[例] 假设有一段文本,包含58个字符,并由以下7个字符构:a,e,i, s,t,空格(sp),换行(nl);这7个字符出现的次数不同。如何对这7个字符进行编码,使得总编码空间最少?
[分析]
(1)用等长ASCII编码:58 ×8 = 464位;
(2)用等长3位编码:58 ×3 = 174位;
(3)不等长编码:出现频率高的字符用的编码短些,出现频率低的字符则可以编码长些?
 
怎么进行不等长编码?如何避免二义性?
  • 前缀码prefix code:任何字符的编码,都不是另一字符编码的前缀
可以无二义地解码(判定字符是否都在叶结点上,没有字符在路径上,不然解码时会有歧义)
 
用二叉树进行编码:1)左右分支:0、1; 2)字符只在叶结点上
[例] 四个字符的频率: a:4, u:1, x:2, z:1
数据结构之哈夫曼树与哈夫曼编码0
〖例〗哈夫曼编码
数据结构之哈夫曼树与哈夫曼编码0
 
题外话,这种使用优先队列的方法,在层次聚类里也有。

原文链接:https://www.cnblogs.com/justLittleStar/p/17322144.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:数据结构之哈夫曼树与哈夫曼编码 - Python技术站

(0)
上一篇 2023年4月17日
下一篇 2023年4月17日

相关文章

  • 使用Python检测文章抄袭及去重算法原理解析

    下面是关于“使用Python检测文章抄袭及去重算法原理解析”的完整攻略。 1. 文章抄袭检测算法概述 文章抄袭检算法是一种用于检测文本相度的算法,它的基本思想是将文本转换成向量表示,然后算向量之间的相似度。常见的文章抄袭检测算法包括余弦相似度算法、Jaccard相似度算法等。在Python中,我们可以使用各种数据结构和算法实现这些文章抄袭检测算法。 2. 文…

    python 2023年5月13日
    00
  • Python字符串的全排列算法实例详解

    Python字符串的全排列算法实例详解 在Python中,字符串的全排列算法是一种常见的算法,它可以用于字符串的排序、组合、查找等问题。本文将详细介绍Python字符串的全排列算法,包括递归实现和迭代实现两种方法。 1. 递归实现 递归实现是一种常用的字符串全排列算法,它的本思想是将分为两部分第一个字符和剩余字符。然后将第一个字符与剩余字符的全排列进行组合,…

    python 2023年5月14日
    00
  • AUC计算方法与Python实现代码

    AUC计算方法与Python实现代码 AUC(Area Under Curve)是一种常用的分类模型评价指标,它可以用于评估分类模型的性能。在本文中我们将详细介绍AUC的计算方法,并提供两个示例,以说明如何使用Python实现AUC的计算。 AUC计算方法 AUC是ROC曲线的面积,ROC曲线是一种用于评估二分类模型性能的曲线。ROC曲的横轴是假正率(Fal…

    python 2023年5月14日
    00
  • R语言数据结构之矩阵、数组与数据框详解

    R语言数据结构之矩阵、数组与数据框详解 在R语言中,矩阵、数组和数据框是常见的数据结构。本文将从定义、创建、访问和操作等方面详细讲解这些数据结构。 矩阵(matrix) 定义 矩阵是R语言中的一种二维数据结构,所有的元素都必须是同一类型的,并且矩阵中的行列数必须相同。矩阵可以使用matrix函数创建。 创建 # 创建一个3行4列的矩阵,所有元素都为0 mat…

    数据结构 2023年5月17日
    00
  • Redis高效率原因及数据结构分析

    Redis高效率原因及数据结构分析 Redis高效率的原因 Redis是一款高性能、高可靠性的内存数据库,其高效率的原因主要体现在以下几个方面: 1. 内存存储 Redis数据完全存储在内存中,而不是像传统的关系型数据库一样存储在磁盘中。内存的读写速度要远远快于磁盘的读写速度,因此Redis在数据读写时的速度非常快,能够达到每秒钟数百万次的读写操作。 2. …

    数据结构 2023年5月17日
    00
  • Java数据结构之图(动力节点Java学院整理)

    Java数据结构之图是动力节点Java学院整理的一篇关于图的攻略教程,该教程包含以下主要内容: 一、图的定义 图是由若干个顶点以及它们之间的相互关系所构成的数学模型。它包含了许多实际生活中的应用,如社交网络、地图、电子邮件网络等。 二、图的存储方式 图的存储方式有两种:邻接矩阵和邻接表。 邻接矩阵 邻接矩阵以二维数组的形式存储图。对于有n个顶点的图,其邻接矩…

    数据结构 2023年5月17日
    00
  • python实现中文分词FMM算法实例

    下面是详细讲解“Python实现中文分词FMM算法实例”的完整攻略,包括算法原理、Python实现和两个示例说明。 算法原理 FMM算法是一种基于正向最大匹配的中文分词算法,其基本思想是从左到右扫描待分词文本,每次取出最长的词进行匹配,直到扫描完整个文本。具体步骤如下: 从左到右扫描待分词文本; 取出最长的词进行匹配; 如果匹配成功,则将该词作为分词结果; …

    python 2023年5月14日
    00
  • 浅谈PHP链表数据结构(单链表)

    介绍 链表是一种常见的数据结构,它包括单链表和双链表,本文中我们将会介绍PHP的单链表数据结构实现,具体而言我们将会实现一个包括插入节点,删除节点,打印节点等基本操作的单链表,帮助读者深入理解PHP链表数据结构。 创建节点 链表数据结构是由一个个节点组成的,我们首先要实现一个节点的创建函数,这个函数接受两个参数,一个是节点数据,另一个是下一个节点的指针地址。…

    数据结构 2023年5月17日
    00
合作推广
合作推广
分享本页
返回顶部