EAST模型分析 - 实验支持

EAST模型分析 zzl2022-07-12 16:41:38 回复查看 经验交流

0 赞 0 收藏
分享到:

EAST流程

EAST做文本检测只需要两步：先是一个全卷积的网络直接产生一个字符或者文本行的预测（可以是旋转的矩形或者不规则四边形），然后通过NMS（Non-Maximum Suppression）算法合并最后的结果。下图是EAST的pipeline。第一个阶段是基于全卷积网络（FCN）模型，直接产生文本框预测；第二个阶段是对生成的文本预测框（可以是旋转矩形或矩形）经过非极大值抑制以产生最终结果。该模型放弃了不必要的中间步骤，进行端到端的训练和优化。
在这里插入图片描述 EAST 网络结构

EAST网络是一个全卷积网络，主要有三部分：特征提取层，特征融合层，输出层。由于在一张图片中，各个文字大小不一，所以需要融合不同层次的特征图，小文字的预测需要用到底层的语义信息，大文字的预测要用到高层的语义信息。

特征提取和融合这一单元很容易看懂，最深层的特征 f 1 f_1 f1 上采样2倍与上层的 f 2 f_2 f2 拼接，然后经过一个 1 × 1 1 \times 1 1×1卷积（特征降维）和一个 3 × 3 3 \times 3 3×3 卷积后再上采样2倍与 f 3 f_3 f3拼接，剩下的结构与这个类似，一共只融合了四层特征图，feature map大小分别为原图的1/4、1/8、1/16、1/32，这样可以获取不同尺度的特征图，能够解决文本行尺度变换剧烈的问题。ealy stage可用于预测小的文本行，late-stage可用于预测大的文本行。
在这里插入图片描述在特征融合部分，从特征提取网络的顶部特征按照相应的规则向下进行合并，上图中逐步融合的特征可以用公式表示为（其中[ ; ]符号表示沿着通道轴连接。）：
输出层主要有三部分。

socre map：特征融合层后接一个1*1的卷积，输出通道为1，最后输出一共分数图，代表每个像素点属于文本区域的概率。

RBOX：这部分一共输出5个通道。分别由两个1*1卷积产生4个和1个，其中4个通道分别表示从像素位置到矩形的顶部，右侧，底部，左侧边界的4个距离，1个通道表示边界框的旋转角度。这部分用来预测旋转矩形的文本

QUAD：使用8个数字来表示从四边形的四个角顶点 { p i ∣ i ∈ { 1 , 2 , 3 , 4 } } \{p_i |i∈\{1,2,3,4\}\} {pi∣i∈{1,2,3,4}}到像素位置的坐标偏移。由于每个距离偏移包含两个数字（ Δ x i ， Δ y i ） \Delta x_i，\Delta y_i） Δxi，Δyi），因此几何输出包含8个通道。该部分可以预测不规则四边形的文本。
Locality-Aware NMS(局部感知NMS)

1.先对所有的output box集合结合相应的阈值（大于阈值则进行合并，小于阈值则不合并），将置信度得分作为权重加权合并，得到合并后的bbox集合；

2.对合并后的bbox集合进行标准的NMS操作。

因为本文会预测成千上万个几何框，一个简单的NMS算法的时间复杂度是O（n^2），其中n是候选框的数量，这个时间复杂度太高，尤其是面对上万个后选框的时候。所以本文提出逐行合并几何图形，假设来自附近像素的几何图形倾向于高度相关，在合并同一行中的几何图形时，将迭代合并当前遇到的几何图形与最后一个合并图形，改进后的时间复杂度为O（n）。这里合并的四边形坐标是通过两个给定四边形的得分进行加权平均的。下面是算法流程。

在这里插入图片描述