一文读懂CRNN+CTC文字识别

文字识别也是图像领域一个常见问题。然而，对于自然场景图像，首先要定位图像中的文字位置，然后才能进行识别。

所以一般来说，从自然场景图片中进行文字识别，需要包括2个步骤：

文字检测：解决的问题是哪里有文字，文字的范围有多少
文字识别：对定位好的文字区域进行识别，主要解决的问题是每个文字是什么，将图像中的文字区域进转化为字符信息。

文字检测类似于目标检测，即用 box 标识出图像中所有文字位置。对于文字检测不了解的读者，请参考本专栏文章：场景文字检测—CTPN原理与实现zhuanlan.zhihu.com

本文的重点是如何对已经定位好的文字区域图片进行识别。假设之前已经文字检测算法已经定位图中的“subway”区域（红框），接下来就是文字识别。

基于RNN文字识别算法主要有两个框架：

CNN+RNN+CTC(CRNN+CTC)
CNN+Seq2Seq+Attention

本文主要介绍第一种框架CRNN+CTC，对应TensorFlow 1.15实现代码如下。本文介绍的CRNN网络结构都基于此代码。另外该代码已经支持不定长英文识别。bai-shang/crnn_ctc_ocr_tfgithub.com

需要说明该代码非常简单，只用于原理介绍，不保证泛化性等工程问题，也请勿提问。

CRNN基本网络结构

整个CRNN网络可以分为三个部分：

假设输入图像大小为，注意提及图像都是形式。

Convlutional Layers

这里的卷积层就是一个普通的CNN网络，用于提取输入图像的Convolutional feature maps，即将大小为的图像转换为大小的卷积特征矩阵，网络细节请参考本文给出的实现代码。

Recurrent Layers

这里的循环网络层是一个深层双向LSTM网络，在卷积特征的基础上继续提取文字序列特征。对RNN不了解的读者，建议参考：完全解析RNN, Seq2Seq, Attention注意力机制zhuanlan.zhihu.com

所谓深层RNN网络，是指超过两层的RNN网络。对于单层双向RNN网络，结构如下：

而对于深层双向RNN网络，主要有2种不同的实现：

tf.nn.bidirectional_dynamic_rnn

tf.contrib.rnn.stack_bidirectional_dynamic_rnn

在CRNN中显然使用了第二种stack形深层双向结构。

由于CNN输出的Feature map是大小，所以对于RNN最大时间长度（即有25个时间输入，每个输入列向量有）。

Transcription Layers

将RNN输出做softmax后，为字符输出。

关于代码中输入图片大小的解释：

在本文给出的实现中，为了将特征输入到Recurrent Layers，做如下处理：

首先会将图像在固定长宽比的情况下缩放到大小（代表任意宽度）
然后经过CNN后变为
针对LSTM设置，即可将特征输入LSTM。

所以在处理输入图像的时候，建议在保持长宽比的情况下将高缩放到，这样能够尽量不破坏图像中的文本细节（当然也可以将输入图像缩放到固定宽度，但是这样由于破坏文本的形状，肯定会造成性能下降）。

考虑训练Recurrent Layers时的一个问题：

对于Recurrent Layers，如果使用常见的Softmax cross-entropy loss，则每一列输出都需要对应一个字符元素。那么训练时候每张样本图片都需要标记出每个字符在图片中的位置，再通过CNN感受野对齐到Feature map的每一列获取该列输出对应的Label才能进行训练，如图9。

在实际情况中，标记这种对齐样本非常困难（除了标记字符，还要标记每个字符的位置），工作量非常大。另外，由于每张样本的字符数量不同，字体样式不同，字体大小不同，导致每列输出并不一定能与每个字符一一对应。

当然这种问题同样存在于语音识别领域。例如有人说话快，有人说话慢，那么如何进行语音帧对齐，是一直以来困扰语音识别的巨大难题。

所以CTC提出一种对不需要对齐的Loss计算方法，用于训练网络，被广泛应用于文本行识别和语音识别中。

Connectionist Temporal Classification(CTC)详解

在分析过程中尽量保持和原文符号一致。Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networksftp.idsia.ch

整个CRNN的流程如图10。先通过CNN提取文本图片的Feature map，然后将每一个channel作为的时间序列输入到LSTM中。

为了说明问题，我们定义：

CNN Feature map

Feature map的每一列作为一个时间片输入到LSTM中。设Feature map大小为（图11中，）。下文中的时间序列都从开始，即。

定义为：

其中每一列为：

LSTM

LSTM的每一个时间片后接softmax，输出是一个后验概率矩阵，定义为：

其中，的每一列为：

其中代表需要识别的字符集合长度。由于是概率，所以服从概率假设：

对每一列进行操作，即可获得每一列输出字符的类别。

那么LSTM可以表示为：

其中代表LSTM的参数。LSTM在输入和输出间做了如下变换：

空白blank符号

如果要进行的26个英文字符识别，考虑到有的位置没有字符，定义插入blank的字符集合：

其中blank表示当前列对应的图像位置没有字符（下文以符号表示blank）。

关于变换

定义变换如下（原文是大写的，知乎没这个符号）：

其中是上述加入blank的长度为的字符集合，经过变换后得到原始，显然对于的最大长度有。

举例说明，当时：

对于字符间有blank符号的则不合并：

当获得LSTM输出后进行变换，即可获得输出结果。显然变换不是单对单映射，例如对于不同的都可获得英文单词state。同时成立。

那么CTC怎么做？

对于LSTM给定输入的情况下，输出为的概率为：

其中代表所有经过变换后是的路径。

其中，对于任意一条路径有：

注意这里的中的，下标表示路径的每一个时刻；而上面的下标表示不同的路径。两个下标含义不同注意区分。

*注意上式成立有条件，此项不做进一步讨论，有兴趣的读者请自行研究。

如对于的路径来说：

实际情况中一般手工设置，所以有非常多条路径，即非常大，无法逐条求和直接计算。所以需要一种快速计算方法。

CTC的训练目标

CTC的训练过程，本质上是通过梯度调整LSTM的参数，使得对于输入样本为时使得取得最大。

例如下面图14的训练样本，目标都是使得时的输出变大。

CTC借用了HMM的“向前—向后”(forward-backward)算法来计算

要计算，由于有blank的存在，定义路径为在路径每两个元素以及头尾插入blank。那么对于任意的都有（其中）。如：

显然，其中是路径的最大长度，如上述例子中。

定义所有经变换后结果是且在时刻结果为（记为）的路径集合为。

求导：

注意上式中第二项与无关，所以：

而上述就是恰好与概率相关的路径，即时刻都经过 ( )。

举例说明，还是看上面的例子（这里的下标代表不同的路径）：

蓝色路径：

红色路径：

还有没有画出来。

而在时恰好都经过（此处下标代表路径的时刻的字符）。所有类似于经过变换后结果是且在的路径集合表示为。

观察。记蓝色为，红色路径为，可以表示：

那么可以表示为：

计算：

为了观察规律，单独计算。

不妨令：

那么可以表示为：

推广一下，所有经过变换为且的路径（即）可以写成如下形式：

进一步推广，所有经过变换为且的路径（即）也都可以写作：

所以，定义前向递推概率和 ：

对于一个长度为的路径，其中代表该路径前个字符，代表后个字符。

其中表示前个字符经过变换为的的前半段子路径。代表了时刻经过的路径概率中概率之和，即前向递推概率和。

由于当时路径只能从blank或开始，所以有如下性质：

如上面的例子中 , , 。对于所有路径，当时只能从blank和字符开始。

图16是时经过压缩路径后能够变为的所有路径。观察图15会发现对于有如下递推关系：

也就是说，如果时刻是字符，那么时刻只可能是字符三选一，否则经过变换后无法压缩成。

那么更一般的：

同理，定义反向递推概率和 ：

其中表示后个字符经过变换为的的后半段子路径。代表了时刻经过的路径概率中概率之和，即反向递推概率和。

由于当时路径只能以blank或结束，所以有如下性质：

如上面的例子中 , , , 。对于所有路径，当时只能以（blank字符）或字符结束。

观察图15会发现对于有如下递推关系

与同理，对于有如下递推关系：

那么forward和backward相乘有：

或：

注意，可以通过图16的关系对应，如，。

对比 :

可以得到与forward和backward递推公式之间的关系：

* 为什么有上式成立呢？

回到图15，为了方便分析，假设只有共4条在时刻经过字符且变换为的路径，即 :

那么此时（注意虽然表示路径用加法，但是由于和两件独立事情同时发生，所以路径的概率是乘法）：

则有：

训练CTC

对于LSTM，有训练集合，其中是图片经过CNN计算获得的Feature map，是图片对应的OCR字符label（label里面没有blank字符）。

现在我们要做的事情就是：通过梯度调整LSTM的参数，使得对于输入样本为时有取得最大。所以如何计算梯度才是核心。

单独来看CTC输入（即LSTM输出）矩阵中的某一个值（注意与含义相同，都是在时的概率）：

上式中的是通过递推计算的常数，任何时候都可以通过递推快速获得，那么即可快速计算梯度，之后梯度上升算法你懂的。

CTC编程接口

在Tensorflow中官方实现了CTC接口：

tf.nn.ctc_loss(
    labels,
    inputs,
    sequence_length,
    preprocess_collapse_repeated=False,
    ctc_merge_repeated=True,
    ignore_longer_outputs_than_inputs=False,
    time_major=True
)

在Pytorch中需要使用针对框架编译的warp-ctc：https://github.com/SeanNaren/warp-ctc

2020.4更新，目前Pytorch已经有CTC接口：

torch.nn.CTCLoss(blank=0,reduction='mean',zero_infinity=False）

CTC总结

CTC是一种Loss计算方法，用CTC代替Softmax Loss，训练样本无需对齐。CTC特点：

引入blank字符，解决有些位置没有字符的问题
通过递推，快速计算梯度

看到这里你也应该大致了解MFCC+CTC在语音识别中的应用了（图17来源）。

CRNN+CTC总结

这篇文章的核心，就是将CNN/LSTM/CTC三种方法结合：

首先CNN提取图像卷积特征
然后LSTM进一步提取图像卷积特征中的序列特征
最后引入CTC解决训练时字符无法对齐的问题

即提供了一种end2end文字图片识别算法，也算是方向的简单入门。

特别说明

一般情况下对一张图像中的文字进行识别需要以下步骤

定位文稿中的图片，表格，文字区域，区分文字段落（版面分析）
进行文本行识别（识别）
使用NLP相关算法对文字识别结果进行矫正（后处理）

本文介绍的CRNN框架只是步骤2的一种识别算法，其他非本文内容。CTC你学会(fei)了么？

文章来源：知乎