基于注意力模型和卷积循环神经网络的中文自然场景文本识别

2023年4月8日上午12:36 • 循环神经网络

最近，在进行相关中文文本识别的工作，查阅了许多论文。最终决定参考谷歌的基于注意力机制的街景文本识别的论文："Attention-based Extraction of Structured Information from Street View Imagery"，并对官方源代码进行修改。

本次中文文本识别的github地址为：https://github.com/A-bone1/Attention-ocr-Chinese-Version。代码使用的是python3.5及Tensorflow1.4，可在window10、ubuntu16.04上运行。下面对本次模型进行一个较为详细的描述。

一：模型整体框架及识别基本流程

基于注意力模型和卷积循环神经网络的中文自然场景文本识别

基于注意力模型的卷积循环神经网路（Attention-CRNN）的整体框架如图所示，它主要由三部分组成：卷积神经网络、循环神经网络和注意力模型。

在网络的前端，卷积神经网络自动从输入的图片中提取特征，接着注意力模型根据循环神经网络神经元的隐藏状态及上一时刻的输出计算出注意力权重，最后将卷积神经网络输出的特征图与注意力权重结合起来，输入循环神经网络进行编解码后，得到整个字符集的概率分布，最后直接提取概率最高的编号所对应的字符作为最后的识别结果。虽然，Attention-CRNN是由几个不同的神经网络及部件（CNN，RNN，Attention）构成的，但它们可以使用同一个损失函数进行端到端训练。

二：如何开始进行训练

1、生成自己的训练数据并转化成FSNStfrecord格式：

首先创建自己的字典（dic.txt），并生成自己的样本数据集，再将其转化成训练所需要的FSNS tfrecord格式。详细转化步骤及代码可参考博客或github

2、下载所提供的中文文本识别的源代码，并将数据集放在对应的目录中。

3、根据README中的文档进行相关修改及设置便可开始训练。

建议：

（1）可使用课程学习（Curriculum Learning）策略提高模型泛化能力，即先用生成的简单背景的训练样本进行训练，再逐渐加入真实的较为复杂的自然场景文本图片增加样本复杂度。

（2）该模型对显存要求较高，如显存不满足训练需求，可以在生成训练样本的时候将图片尺寸降低并在训练代码中进行相关图片尺寸修改。

三：目前训练结果

1、损失函数 2、准确度（单字精确度92.96%，整句精确率80.18%）

基于注意力模型和卷积循环神经网络的中文自然场景文本识别