数据结构之哈夫曼树与哈夫曼编码

yizhihongxing

一、背景

编码是信息处理的基础(重新表示信息)。
普通的编码是等长编码,例如7位的ASCIL编码,对出现频率不同的字符都使用相同的编码长度。但其在传输和存储等情况下编码效率不高
可使用不等长编码,来压缩编码:高频字符编码长度更短,低频字符编码长度更长。
 
[例] 将百分制的考试成绩转换成五分制的成绩
数据结构之哈夫曼树与哈夫曼编码0
按顺序分别编码。
数据结构之哈夫曼树与哈夫曼编码0
按频率分别编码(高频短编码,类似于香农熵衡量随机变量的编码长度下界)。
这种贪心思想,可以找到一种平均最短编码长度-霍夫曼编码。可将构造平均最短编码转化为,构造平均查找长度最小的编码树(构造更有效的搜索树)

二、哈夫曼树

哈夫曼树的定义
数据结构之哈夫曼树与哈夫曼编码0
带权路径长度就是所有叶子节点的编码长度乘以权重的和。 希望权重越高的叶子节点,编码长度越小。
[例] 有五个叶子结点,它们的权值为{1,2,3,4,5},用此权值序列可以构造出形状不同的多个二叉树。
数据结构之哈夫曼树与哈夫曼编码0
哈夫曼树的构造
初始全是只有一个节点的树构成的森林 (优先队列存放树的根节点,每次合并后将新的树插入队列)
数据结构之哈夫曼树与哈夫曼编码0
每次把权值最小的两棵二叉树合并 (自底向上)
 
使用最小堆,Huffman树为二叉树
typedef struct TreeNode *HuffmanTree;
struct TreeNode{
    int Weight;
    HuffmanTree Left, Right;
};

/* WPL WeightPathLength Cost越小编码越有效, O(NlogN) */ 
HuffmanTree Huffman( MinHeap H )
{ 
  /* 假设H->Size个权值已经存在H->Elements[]->Weight里 */
    int i; 
    HuffmanTree T;
    BuildMinHeap(H); /* 将H->Elements[]按权值调整为最小堆 */
    /* 做 H->Size - 1 次合并 */
    for (i = 1; i < H->Size; i++) 
{ 
         T = malloc( sizeof( struct TreeNode) ); /* 建立新结点 */        
         T->Left = DeleteMin(H);  /* 从最小堆中删除一个结点,作为新T的左子结点 */
         
         T->Right = DeleteMin(H);
 /* 从最小堆中删除一个结点,作为新T的右子结点 */        
         T->Weight = T->Left->Weight + T->Right->Weight; /*计算新权值*/

         Insert( H, T ); /*将新T插入最小堆*/
     }
     T = DeleteMin(H);
     
    return T;


int WPL( HuffmanTree H )
{
    return H->Weight;
}

  

哈夫曼树的特点
  • 没有度为1的结点;
  • 哈夫曼树的任意非叶节点的左右子树交换后仍是哈夫曼树;
  • n个叶子结点的哈夫曼树共有2n-1个结点;
对同一组权值{w1 ,w2, …… , wn},是否存在不同构的两棵哈夫曼树呢?存在,当存在相同权值的根节点时。
对一组权值{ 1, 2 , 3, 3 }},不同构的两棵哈夫曼树:
数据结构之哈夫曼树与哈夫曼编码0
哈夫曼编码
给定一段字符串,如何对字符进行编码,使得该字符串的编码存储空间最少?
[例] 假设有一段文本,包含58个字符,并由以下7个字符构:a,e,i, s,t,空格(sp),换行(nl);这7个字符出现的次数不同。如何对这7个字符进行编码,使得总编码空间最少?
[分析]
(1)用等长ASCII编码:58 ×8 = 464位;
(2)用等长3位编码:58 ×3 = 174位;
(3)不等长编码:出现频率高的字符用的编码短些,出现频率低的字符则可以编码长些?
 
怎么进行不等长编码?如何避免二义性?
  • 前缀码prefix code:任何字符的编码,都不是另一字符编码的前缀
可以无二义地解码(判定字符是否都在叶结点上,没有字符在路径上,不然解码时会有歧义)
 
用二叉树进行编码:1)左右分支:0、1; 2)字符只在叶结点上
[例] 四个字符的频率: a:4, u:1, x:2, z:1
数据结构之哈夫曼树与哈夫曼编码0
〖例〗哈夫曼编码
数据结构之哈夫曼树与哈夫曼编码0
 
题外话,这种使用优先队列的方法,在层次聚类里也有。

原文链接:https://www.cnblogs.com/justLittleStar/p/17322144.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:数据结构之哈夫曼树与哈夫曼编码 - Python技术站

(0)
上一篇 2023年4月17日
下一篇 2023年4月17日

相关文章

  • 数据结构与算法大作业:走迷宫程序(C语言,DFS)(代码以及思路)

    好家伙,写大作业,本篇为代码的思路讲解   1.大作业要求 走迷宫程序 问题描述: 以一个 m * n 的长方阵表示迷宫, 0和1分别表示迷宫的通路和障碍。 设计一个程序, 对任意设定的迷宫, 求出一条从入口到出口的通路, 或得出没有通路的结论。 基本要求: (1) 实现一个以链表做存储的栈类型, 然后编写一个求解迷宫的非递归程序。 求的通路以三元组(i, …

    算法与数据结构 2023年5月9日
    00
  • mysql的Buffer Pool存储及原理解析

    下面我就来详细讲解一下“mysql的Buffer Pool存储及原理解析”的攻略。 Buffer Pool简介 在MySQL中,Buffer Pool是一个重要的概念,也可以说是MySQL最重要的性能优化建议之一。Buffer Pool是MySQL内存中缓存数据页的数据结构,用于加速数据的读写。 数据页 在MySQL中,数据是以数据页(page)为单位进行读…

    数据结构 2023年5月17日
    00
  • python实现决策树、随机森林的简单原理

    下面是详细讲解“Python实现决策树、随机森林的简单原理”的完整攻略。 1. 决策树 决策树是一种基于树结构的分类模型,它通过对集进行递归分割,最终生成一棵树结构,每个叶子节点代表一个类别。决策树的构建过程可以分为以下几个步骤: 选择最优特征作为根节点。 根据根节点特征将集分成多个子集。 对每个子集递归执行步骤1和步骤2,直到满停止条件。 构建决策树。 以…

    python 2023年5月14日
    00
  • python 实现逻辑回归

    逻辑回归是一种常用的分类算法,它可以将数据集划分为两个或多个类别。在本攻略中,我们将介绍如何使用Python实现逻辑回归算法。 步骤1:导入库 在Python实现逻辑回归算法之前,我们需要导入相关的库。在本攻略中,我们将使用NumPy库和Matplotlib库来处理数据和可视化结果,使用sklearn库中的LogisticRegression类来实现逻辑回归…

    python 2023年5月14日
    00
  • 详解C语言实现空间索引四叉树

    详解C语言实现空间索引四叉树攻略 四叉树是一种常见的空间索引方法,可以有效地处理二维或三维空间中的数据。本攻略将详细介绍使用C语言实现空间索引四叉树的方法,包括数据结构的设计,插入和查询操作的实现。 数据结构设计 结点结构体 struct QuadtreeNode { int depth; // 结点深度 double x, y; // 结点中心坐标 dou…

    数据结构 2023年5月17日
    00
  • C语言数据结构之算法的时间复杂度

    关于C语言数据结构之算法的时间复杂度,需要先了解一些基本概念。 什么是时间复杂度 时间复杂度是算法的一种衡量标准,用于评估算法的执行效率。表示代码执行的时间和数据量之间的关系,通常用大O符号来表示,称为“大O记法”。 时间复杂度的分类 时间复杂度可分为以下几类: 常数阶:O(1) 对数阶:O(log n) 线性阶:O(n) 线性对数阶:O(n log n) …

    数据结构 2023年5月17日
    00
  • python实现可逆简单的加密算法

    下面是关于“Python实现可逆简单的加密算法”的完整攻略。 1. 可逆简单的加密算法简介 可逆简单的加密算法是一种基密码学的法,它可以将明文转换为密文,从而保证数据的安全性。与其他加密算法不同的是可逆简单加密算法可以通过相同的算法逆向解密,将密文还原为明文。这种算法通常用对敏感数据进行加密,如密码、银行卡号等。 2. Python实现可逆简单的加密算法 2…

    python 2023年5月13日
    00
  • python实现贝叶斯推断的例子

    贝叶斯推断的基本原理 贝叶斯推断是一种基于贝叶斯定理的统计推断方法,它可以用于估计未知参数、预测未来事件等。在本文中,我们将介绍如何实现贝叶斯推断的例子,并提供两个示例说明。 贝叶斯推断基本原理是根据已知的先验概和新的观测数据,计算出后验概率。具体来说,贝叶斯断的步骤如下: 确定先验概:根据已有的知识和经验,确定未知参数的先验概率分布。 收集观测数据:收集新…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部