引用
Long S, He X, Yao C. Scene text detection and recognition: The deep learning era[J]. International Journal of Computer Vision, 2021, 129(1): 161-184.
摘要
随着深度学习的兴起和发展,计算机视觉也受到了极大的转变和重塑。场景文本检查作为计算机视觉领域的一个重要的研究方向,不可避免地受到这一革命浪潮的影响,从而进入了深度学习的时代。近年来,大家见证了其在思维方式、应用方法和性能方面都取得了长足的进步。本研究旨在总结和分析深度学习时代下场景文本检测与识别的主要变化以及对应的一些突破性进展。在这篇文章当中,我们致力于:(1)引入新的观点和想法;(2)突出近期的研究与它的基准;(3)对未来发展趋势进行展望。具体的来说,我们将强调随着深度学习而带来的巨大差异以及当中仍然存在的一些挑战。希望本文能够为本领域的研究人员提高参考。相关的资源被收集在我们的 Github 中:https://github.com/Jyouhou/SceneTextPapers。
研究背景
毫无疑问,文本是人类最辉煌、最有影响的创造之一。文本作为人类语言的书面表达形式,使得可靠、有效地传播或获取跨时空信息成为可能。在这个意义上说,文本构成了人类文明的基石。一方面,文本作为沟通与协作的重要工具,在现代社会中发挥着前所未有的作用;另一方面,文本所体现的丰富而精确的高级语义有助于理解我们周围的世界。举个例子来说,文本信息可以广泛的在现实世界中应用,如 Tsai 等人提出的图像搜索、Dvorin 与 Havosha 提出的即时翻译、DeSouza 与 Kak 等人提出的机器导航和 Ham 等人提出的工业自动化。因此,如下图所示,场景文本检测与识别或者说是 Photocr 已成为计算机视觉领域一个日益热门和重要的研究课题。
然而,尽管经过多年的研究,在检测和识别原始文本时仍可能遇到一系列重大的挑战。困难主要来自三个方面:
· 自然场景能表现出更强的多样性和多变性:与文档中的脚本不同,自然场景中的文本表现出更高的多样性和可变性。例如,场景文本的实例可以使用不同的语言、颜色、字体、大小、方向和形状。此外,光谱和背景的变化可能非常大。所有这些变化都会对自然场景中文本的检测和识别的算法提出挑战。
· 复杂性以及背景的干扰:自然场景的背景几乎不可预测。这可能有与文本极其相似的模式有关。(例如,背景的复杂性和干扰树叶、交通标志、砖块、窗户和栅栏)这类异物或可造成堵塞,可能导致混淆和错误。
· 不完美的成像场景:在不受控制的情况下,无法保证文本图像和视频的质量。也就是说,在较差的成像条件下,文本样本的分辨率可能较低,导致严重失真,这是由于不适当的曝光距离或角度导致,或者由于失焦或抖动而模糊,或者就是由于低亮度而产生噪声,或者被高光或阴影损坏。(总之就是成像条件不理想)
在深度学习在计算机视觉和其他领域显示出它的潜力之前,这些困难其实一直存在。在 AlexNet(在 2012 年 Krizhevsky 等人)赢得 ILSVRC2012(在 2015 年 Russakovsky 等人)比赛后,深度学习开始崭露头角,研究人员开始转向通过深度神经网络进行自动特征学习,并开始进行更深入的研究。大家现在正致力于制定更具挑战性的目标。其中,近年来取得的进展总结如下:
· 融合深度学习:目前几乎所有的方法都建立在深度学习模型的基础上。最重要的是,深度学习让研究人员从繁重的工作中解放出来,不断地设计和测试手工制作的特征,就能催生出一大批作品,进一步推动了这一领域的发展。具体来说,深度学习的使用大大简化了整个流程。此外,这些算法在标准基准上相比以前的算法有很大的改进。其中,基于梯度的训练程序也有助于端到端的训练方法。
· 面向挑战的算法和数据集:研究人员正在转向更具体的方面和挑战。针对现实世界场景中的数据收集的困难,收集具有独特和代表性特征的最新数据集。例如,数据集分别以长文本、模糊文本和曲线文本为特征。在这些数据集的推动下,近年来发表的几乎所有算法都是为了应对特定的挑战而设计的。例如,一些被提出用于检测定向文本,而另一些则针对模糊和未聚焦的场景图像。这些想法也结合起来,使更多的通用方法。
· 展开辅助技术:除了致力于发展主要任务的新数据集和模型外,不直接解决任务的辅助技术也在这一领域占有一席之地,例如合成数据和引导。
本文的工作
本文综述了基于深度学习的静态场景图像文本检测与识别的研究进展。我们从不同的角度回顾了这些方法,并列出了最新的数据集。分析了研究现状和未来的研究趋势。
已经有好几篇优秀的评论论文(Uchida 在 2014 发的文章;Ye 和 Doermann 等人在 2015 年发的文章;Zhud 等人在 2016 发的文章),组织和分析了与文本检测和识别相关的工作。然而,这些论文是深度学习在这一领域崭露头角之前发表的。因此,它们主要集中在更传统和基于特征的方法上。我们也建议读者参考这些文件,以便更全面地了解这一领域的历史。本文将主要集中于从静态图像中提取文本信息,而不是从视频中提取文本信息。对于视频中的场景文本检测和识别,请参考 Jung 等人在 2014 年和 Yin 等人在 2016 年发表的文章(本文有对其进行标注)。
除此之外,我们还做了以下几个工作。1)我们简要回顾了深度学习时代之前的方法;2)我们按层次顺序列出并总结了基于深度学习的算法。其中,我们不是按论文发表的顺序介绍这些技术,而是基于它们的方法学分类。如果他们的论文有多方面的贡献的话,它将会出现在几个部分;3)我们关注了数据集的评估协议;4)我们提出了潜在的应用,并对目前的现状和未来的发展趋势提出了自己的看法。
深度学习时代之间的方法
在深度学习火起来之前,对于文本的检测和识别,一直关注的是特征的设计。在这段时间内,大多数文本检测方法要么采用连接成分分析 CCA,要么是采样滑动窗口(SW)的方法。其中,基于 CCA 的方法首先通过多种方式(例如,颜色聚类或极端区域提取)提取候选成分,然后使用手工设计的规则或分类器过滤出非文本成分,这些规则或分类器根据手工制作的特征自动训练。如下图所示:
在 CW 分类方法中,大小不同的窗口在输入图像上滑动,其中每个窗口被分类为文本段或不分类。那些被归类为正的被进一步分组为文本区域,并对具有形态学运算、条件随机场(CRF)和其他基于图形的方法替代
对于文本识别,有一个分支采用了基于特征的方法。主要的思路就是利用标签嵌入直接执行字符串和图像之间的匹配(这其实在现在的分类当中也被广泛应用)。另一种思路是将识别过程分解为一系列子问题。并且,人们提出了各种方法来解决这些子问题,其中包括文本二值化。然后为了解决在识别过程中存在的一系列子问题,又衍生出了一系列的方法。包括文本行分割、字符分割、单字符识别和字符矫正。
也有人致力于端到端系统的研究人员。其中,Wang 提出了一个效果很好的方法,其中,字符被视为目标检测中的一个特例,由一个基于 HOG 特征训练的最近邻分类器检测,然后通过基于图像结构的模型将其分组为标签值。此外,Neumann 和 Matas 提出了一种决策延迟方法,在已知的最后阶段的情况下,将每个字符的多个分段保持到每个字符的上下文。它们使用极值区域检测字符分割的方法,并通过动态规划算法对识别结果进行解码。
综上所述,深度学习时代之前的文本检测和识别方法主要是提取低层或中层的手工图像特征,这就需要有严格的前处理和后处理步骤,但它们的局限就是,这些方法很难处理复杂的情况。
深度学习时代的方法
近年来的方法主要有以下两个特点:(1)大多数方法采用基于深度学习的模型;(2)大多数研究者从不同的角度来看待这个问题,试图解决不同的挑战。由深度学习驱动的方法的优点是,自动特征学习可以避免我们在设计和测试时产生大量潜在的手工特征。同时,有着不同观点的研究人员正在丰富和推动社区进行更深入的工作,针对不同的目标,例如更快更简单的管道、不同长宽比的文本和合成数据。迄今为止。与前一个时代的研究相比,这是最显著的变化。
在此,我们将把现有方法分类为层次分类法,并以自顶向下的方式介绍它们。首先,我们将其分为四类系统:(1)文本检测,即对自然图像文本进行检测和定位;(2)将检测到的文本区域的内容转录并转换为语言符号的识别系统;(3)端到端系统,执行文本检测和识别非统一管道;(4)旨在支持文本检测和识别主要任务的辅助方法,例如合成数据生成。在每个类别下,我们从不同的角度回顾最近的方法。
Ø 检测
场景文本检测算法的发展经历了三个主要阶段:(1)在第一阶段,基于学习的方法配备了多步骤流水线,但这些方法仍然缓慢而复杂;(2) 然后,将一般目标检测的思想和方法成功地植入到这个任务中;(3) 在第三阶段,研究人员设计了基于子文本成分的特殊表示,以解决长文本和不规则文本的挑战。
1.第一阶段
Huang 等人将文本检测的任务转化为一个多步骤的过程。他们使用卷积神经网络(CNN)预测局部片段,然后应用神经后处理步骤将片段合并到检测线中。其中他们在早期的尝试中,CNN 仅用于将局部图像分为文本类和非文本类。他们建议使用 MSER 特征来挖掘这样的图像块。然后正的补丁合并成文本行。后来,CNNSA 重新应用了完整的进化方法。使用 CNNs 检测字符,并将字符分组任务视为最小成本流问题。
Yaoetatl 提出,进化神经网络用于预测输入图像中的每个像素应该满足以下条件:(1)是否属于字符,(2)是否在文本区域内,以及(3)像素周围的文本方向。其中,连接的正的结果被认为是检测到的字符或文本区域。对于属于同一文本区域的字符,应用 Delaunay 进行三角剖分,然后根据预测的方向属性将字符分组为文本行。
Zhang 等人首先预测了一个文本行区域的 sigmenta-tionmapreduce。使用 MSER 来完成提取候选字符以及候选字符显示有关底层文本行的比例和方向的信息。最后,提取最小边界框作为最终的候选文本行。
He 等人提出了一个检测过程,该过程也包括几个步骤:首先提取文本块,然后裁剪模型,只关注提取的文本块,提取文本中心线(TCL),它被定义为原始文本线的收缩版本。每个文本行表示 TCL 图谱的存在性,然后被拆分为几个 TCL。然后将每个分割的 TCL 连接到原始图像。然后,语义分割模型将每个像素分为与给定 TCL 属于同一文本实例的像素和不属于同一文本实例的像素。
总的来说,在这个阶段,场景文本检测算法仍然有漫长而缓慢的发展历程,尽管他们用基于学习的方法代替了一些手工制作的特征。其中,这些设计方法是自下而上的,并且是基于关键组件的,如单个字符和文本中心线。
2.第二阶段
后来,研究人员从快速发展的通用目标检测算法中得到启发。Liu 等人通过修改通用检测器的区域建议和边界盒回归模块来设计场景文本检测算法,以直接定位文本实例。Dai 等人使用卷积层将输入图像编码到特征图中。特征地图上的每个空间位置对应于输入图像的一个区域。然后将特征映射输入分类器,以预测文本实例在每个空间位置的存在和定位。
这些方法将流水线大大简化为一个端到端可训练的神经网络组件,使训练和推理更加容易。
受单阶段对象检测器的启发, Liao 等人提出了 TextBox,其中,Textbox 采用 SSD 将默认框定义为具有不同纵横比规格的四边形,以适应文本的不同方向和纵横比。Zhou 等人提出 EAST,通过采用 U 形设计来整合不同层次的特征,进一步简化了基于锚定的检测。在 SSD 中,输入图像被编码为一个多通道特征图,而不是多个不同空间大小的层。每个空间位置的特征用于直接到回归底层文本实例的矩形或四边形边界框。具体而言,预测文本(即文本/非文本)和几何体(例如矩形的方向和大小)的存在,以及四边形的顶点坐标。EAST 以其高度简化的流水线和以实时速度进行推理的高效性,在文本检测领域中独树一帜。
Girshick 等人采用了 R-CNN 的两阶段目标检测框架,其中第二阶段基于兴趣区域(RoI)池获得的特征校正本地化结果。
Ma 等人建议网络被调整以生成旋转区域建议,以适合任意方向的文本,而不是轴对齐的矩形。
Zhang 等人提出 FEN,使用不同规模的投资回报率池的加权和。最后的预测是通过利用 4 个不同大小的池的文本打分。
Wang 提出使用参数化实例转换网络(ITN),学习预测适当的仿射变换,在基础网络提取的最后一个特征层上执行,以校正定向文本实例,该方法可以训练到最后。
为了适应不规则形状的文本,Liu 等人建议使用多达 14 个顶点的边界多边形,然后使用 Bi LSTM 层来细化预测顶点的坐标。
类似地,Wang 等人建议使用递归神经网络(RNNs)读取基于 RPN 的两阶段对象解码器编码的特征,并预测可变长度的边界多边形。该方法不需要后处理或复杂的中间步骤,在整个文本上实现了 10.0fps 的更快速度。
这一阶段的主要贡献是简化了检测管道并提高了效率。然而,面对现实,其表现仍然有限,主要的原因是由于受感受野的限制,一段式的方法有弯曲、定向或长文本,而两段式的方法效率有限。
3.第三阶段
文本检测与一般目标检测的主要区别在于,文本作为一个整体是同质的,具有局部性,这与一般目标检测不同。通过同质性和局部性,我们指出文本实例的任何部分仍然是文本的属性。人类不必看到整个文本实例就知道它属于某个文本。
这种特性为文本检测方法的一个新分支奠定了基础,该分支只预测子文本成分,然后将它们组合成一个文本实例。这些方法,就其性质而言,可以更好地适应上述挑战弯曲,长,和面向文本。如图 5 所示,这些方法使用神经网络来预测局部属性或片段,并使用后处理步骤来重建文本实例。与早期的多阶段方法相比,它们更多地依赖于神经网络,流水线更短。
Deng 等人提出像素级方法,对端到端全卷积神经网络学习生成密集预测图,指示原始图像中的每个像素是否属于任何文本实例。然后,后处理方法根据属于同一文本实例的像素将像素分组在一起。基本上,它们可以被视为实例分割的特例。由于文本可以出现在簇中,使得预测的像素相互连接,像素级方法的核心是将文本实例彼此分离。
Deng 在 2018 年提出了 PixelLink,通过添加额外的输出通道来指示相邻像素之间的链接,学习预测两个相邻像素是否属于同一文本实例。
Wu 和 Natarajan 等人根据像素的颜色一致性和边缘信息对像素进行聚类。融合后的图像片段称为超像素。其中,这些超像素进一步用于提取字符和预测文本实例。
在分割框架的基础上,Tian 等人提出增加一个损失项,使属于不同文本实例的像素嵌入向量之间的欧氏距离最大化,并使属于同一实例的像素嵌入向量最小化,以更好地分离相邻文本。
Wang 等人提出在不同收缩尺度下预测文本区域,并对检测到的文本区域进行逐轮放大,直至与其他实例发生碰撞。然而,不同尺度的预测本身就是上述边界学习的变体。
组成部分的水平方法通常以中等粒度进行预测。组件是指文本实例的局部区域,有时重叠一个或多个字符。具有代表性的组件级方法是连接主义文本提议网络(CTPN)。CTPN 模型继承了锚定和递归神经网络用于序列标记的思想。他们把 RNN 堆在 CNN 上。最终特征图中的每个位置表示由相应锚定指定的区域中的特征。假设文本水平显示,每一行特征都被输入到 RNN 中,并标记为文本/非文本。还预测了诸如管段尺寸等几何图形。CTPN 是第一个用深度神经网络预测和连接场景文本片段的方法。
Shi 提出的 SegLink,通过考虑片段之间的多方向连接来扩展 CTPN。段的检测基于 Liu 等人提出的 SSD,其中每个默认框表示一个文本段。默认框之间的链接被预测为指示相邻段是否属于同一文本实例。Zhang 等人通过使用图卷积网络来预测片段之间的链接,进一步改进了 SegLink。
Lyu 等人提出点定位方法,检测每个文本实例的四个角点。由于每个文本实例只有 4 个角点,因此预测结果及其相对位置可以指示哪些角点应该分组到同一个文本实例中。
Long 等人认为文本可以表示为沿着文本中心线(TCL)的一系列滑动圆盘,这与文本实例的运行方向一致,如图 6 所示。利用这种新的表示方法,他们提出了一个新的模型 TextSnake,它学习预测局部属性,包括 TCL/非 TCL、文本区域/非文本区域、半径和方向。TCL 像素与文本区域像素的交集给出了像素级 TCL 的最终预测。然后利用局部几何特征提取有序点列表形式的 TCL。利用 TCL 和 radius 对文本行进行重构。它在一些曲线文本数据集以及更广泛使用的数据集上实现了最先进的性能,例如 ICDAR 和 MSRA-TD 500。值得注意的是,Long 等人提出了跨不同数据集的交叉验证测试,其中模型仅在具有直文本实例的数据集上进行微调,并在曲线数据集上进行测试。在现有的曲线数据集中,TextSnake 在 F1 得分方面比其他基线提高了 20%。
字符级别代表是另一种有效的方式。Baek 等人建议学习字符中心的分割图以及它们之间的链接。组件和链接都以高斯热图的形式进行预测。然而,这种方法需要迭代的弱监督,因为现实世界中的数据集很少配备字符级标签。
总体而言,基于子文本成分的检测相对于文本实例的形状和长宽比具有更好的灵活性和泛化能力。主要缺点是,用于将片段分组到文本实例中的模块或后处理步骤可能容易受到噪声的影响,并且该步骤的效率在很大程度上取决于实际实现,因此在不同的平台上可能会有所不同。
Ø 识别
在深度学习时代,场景文本识别模型使用 CNNs 将图像编码到特征空间中。主要区别在于文本内容解码模块。两种主要技术是连接主义时间分类(CTC)和编解码器框架。我们在文献中介绍了基于主要技术的识别方法。主流框架如下图所示。
CTC 和编解码器框架最初都是为一维顺序输入数据而设计的,因此适用于直线和水平文本的识别,这些文本可以被编码成一系列特征帧,而不需要重要的信息,有向文本和曲线文本中的字符分布在二维空间中。为了适应 CTC 和编解码器框架,如何在特征空间中有效地表示有向和弯曲的文本仍然是一个挑战,因为 CTC 和编解码器框架的解码需要一维输入。对于有向和弯曲的文本,直接将特征压缩成一维形式可能会丢失相关信息并引入背景噪声,从而导致识别精度降低。
主要的解决这个挑战的方法包括:
· 基于 CTC 的方法:语言识别方面的 CTC 解码的方法、使用卷积递归神经网络(CRNN)完成特征切片的方法处理输入空间大小的限制。
· 编码器-解码器的方法:针对机器翻译,编码器 RNN 读取输入序列并将其最终潜在状态传递给解码器 RNN,解码器 RNN 以自回归的方式生成输出。编码器-解码器框架的主要优点是提供可变长度的输出,满足场景文本识别的任务设置。编码器-解码器框架通常与注意机制相结合,后者共同学习对齐输入序列和输出序列。
· 不规则文本识别的自适应算法:针对纠错模块,Shi 等人提出了一种文本识别系统,该系统将空间变换网络(STN)和基于注意的序列识别网络相结合。STN 模块预测具有完全连接层的文本边界多边形,以便将输入的不规则文本图像转换为更规范的形式,即直文本。该修正被证明是一个成功的策略,并形成了在 ICDAR 2019 艺术规则文本识别比赛中获胜解决方案的基础。这一方法在后续也有着许多的改进。
· 其他方法:Jaderberg 等人在图像分类的框架下,通过将图像分类为预定义的词汇集来执行单词识别。该模型通过合成图像进行训练,并在一些只包含英语单词的基准上达到了最先进的性能。尽管到目前为止我们已经看到了一些进展,但是识别方法的评估仍然落后于时代。由于大多数检测方法都能检测出有方向的不规则文本,有的甚至能纠正这些文本,因此对这些文本的识别显得多余。另一方面,当使用稍微不同的边界框进行裁剪时,识别的鲁棒性很少得到验证。但这种健壮性在现实世界中可能更为重要。
Ø 端到端的系统
在过去,文本检测和识别通常被看作是两个独立的子问题,它们被结合起来从图像中读取文本。最近,许多端到端的文本检测和识别系统(也称为文本定位系统)被提出,从设计可微计算图的思想中获益匪浅,如下图所示。作为一种新的趋势,构建此类系统的努力已经取得了相当大的势头。两步流水线早期的工作首先检测输入图像中的单个字符,而最近的系统通常在单词级或行级检测和识别文本。其中一些系统首先使用文本检测模型生成文本建议,然后使用另一个文本识别模型对其进行识别。Jaderberg 等人结合使用边盒方案和一个经过训练的聚合通道特征检测器生成候选词边界框。建议框在被发送到他们的认知模型 ProposedIn。Liao 等人将基于 SSD 的文本检测器与 CRNN(Shi et 相结合,以发现图像中的文本。
在这些方法中,检测词是从图像中裁剪出来的,因此检测和识别是两个独立的步骤。两步方法的一个主要缺点是检测模型和识别模型之间的误差传播会导致不满意的性能。两级管道最近提出了端到端可培训网络来解决这一问题,其中特征图而不是图像被裁剪并馈送到识别模块。
Bartz 等人提出了一种解决方案,利用 STN 循环关注输入图像中的每个单词,然后分别识别它们。联合网络以弱监督的方式训练,不使用标签分解。Lietal 用基于编码器-解码器的文本识别模型替换了快速 RCNN 中的对象分类模块,并组成了他们的文本识别系统。Liu 等人开发了统一的文本检测和识别系统,其总体架构非常相似,包括检测分支和识别分支。Liu 等人和 Busta 等人分别采用 EAST 和 YOLOv2 作为检测分支,并有一个类似的文本识别分支,其中文本建议通过双线性采样汇集到固定高度的张量中,然后通过基于 CTC 的识别模块转录到字符串中。He 等人也采用了 EAST 为了生成文本建议,他们在基于注意的识别分支中引入字符空间信息作为显式监督。Lyu 等人提出了对 R-CNN 掩模的改进。对于每个感兴趣的区域,生成字符分割图,指示单个字符的存在和位置。将这些字符从左到右排序的后处理步骤给出最终结果。与上述基于定向边界框执行 RoI 池的工作不同,Qin 等人建议使用轴对齐的边界框,并使用 0/1 文本分割掩码屏蔽裁剪的特征。
除这些方法外,Xing 等人还并行预测字符和文本边界框以及字符类型分割图。然后使用文本边界框对字符框进行分组,形成最终的单词转录结果。这是第一个一阶段的方法。
Ø 辅助技术
文本编辑值得一提的是最近提出的文本编辑任务。这两部作品都试图替换文本内容,同时保留自然图像中的文本样式,例如字符的空间排列、文本字体和颜色。文本编辑本身在使用手机相机进行即时翻译等应用中非常有用。它在增强现有场景文本图像方面也有很大的潜力,尽管我们还没有看到任何相关的实验结果。
除此之外,还有弱监督和半监督的技术用以辅助。在半监督字符检测方面已经有了一些工作,其基本思想是初始化字符检测器并应用规则或阈值来选择最可靠的预测候选。这些可靠的候选者随后被用作额外的监督源,以改进字符检测器。它们都旨在用字符级注释来扩充现有的数据集。如下图所示:
Tian 等人提出 WeText,从一个在字符级别注释的小数据集开始。它遵循两种自举模式:半监督学习和弱监督学习。在半监督设置中,检测到的候选字符用高阈值进行过滤。在弱监督环境下,地面真值字框用于掩盖外部的假阳性。以任何一种方式检测到的新实例都会添加到初始的小数据集中,并重新训练模型。
此外,在 Baek 等人和 Xing 等人中,通过单词级注释过滤候选字符。对于每个单词实例,如果单词边界框内检测到的字符边界框的数量等于地面真单词的长度,则字符边界框被视为正确。
为了提高识别性能,Qin 等人提出使用现成的直接场景文本识别模型对大量未标记的图像进行注释。这些图像被称为部分标记图像,因为现成的模型可能会省略一些单词。这些部分注释的纯文本大大提高了不规则文本的性能。
另一个类似的工作是 Sun 等人提出的大型数据集,其中每个图像仅用一个主要文本进行注释。他们还设计了一种算法来利用这些部分标记的数据,他们声称这些数据的注释成本更低。
基准数据集和评估协议
随着前沿算法在现有数据集上取得更好的性能,研究人员能够解决更具挑战性的问题。新的数据集针对不同的现实世界的挑战已经和正在制定,有利于进一步发展检测和识别方法。
1. 基准数据集
我们收集了现有的数据集,并在上图中总结了它们的统计数据。我们从一些数据集中选取了一些有代表性的图像样本,如下图所示。为了方便读者,这些数据集的链接也收集在我们的 Github 存储库中。
“原始中文文本”数据集包含 32285 幅高分辨率街景图像,在字符级别进行注释,包括其基本字符类型、边界框以及是否使用艺术字等详细属性。该数据集是迄今为止最大的数据集,也是唯一包含详细注释的数据集。但是,它只为中文文本提供注释,而忽略了其他脚本,例如英文。
LSVT 由两个数据集组成。一个是用单词边界框和单词内容完全标记的。另一个,尽管更大,但与主要文本实例的单词内容无关。作者建议研究这样的部分标记的数据,这些数据要便宜得多。
IIIT 5K Word 是最大的场景文本识别数据集,包含数字和自然场景图像。它的变化信息、颜色、大小和其他噪声使得它成为迄今为止最具挑战性的一个。
2. 评估协议
作为比较不同算法性能的指标,我们通常参考它们的准确率、召回率和分数。为了计算这些性能指标,预测文本实例的列表首先应该与基本事实标签相匹配。精度,表示为 P,计算为预测文本实例与 ground truth 标签匹配的比例。Recall,表示为 R,是具有对应项的基本事实标签的比例
同时考虑精确度和召回率。请注意,预测列表。然后用 F1-Sorce,计算 F1 得分为 2PR/(P+R),首先进行预测实例与基本真值实例的匹配。得到的结果如下图所示:
应用
文本作为人类文明的视觉和物质载体,对文本的检测和识别,使视觉与对文本内容的理解有了进一步的联系。除了我们在本文开头提到的应用之外,在各个行业和我们的日常生活中还有许多具体的应用场景。在这一部分中,我们列出并分析那些已经或将要产生重大影响、提高我们的生产力和生活质量的最杰出的人。
自动数据输入除了现有文件的电子存档外,OCR 还可以通过自动数据输入的形式提高我们的生产率。一些行业涉及耗时的数据类型输入,例如快递行业的客户写的快递订单,以及金融和保险行业的手写信息表。应用 OCR 技术可以加快数据输入过程并保护客户隐私。一些公司已经在使用这些技术,例如 SF-Express。另一个潜在的应用是笔记,比如 NEBO,一种在 iPad 等平板电脑上的笔记软件,可以在用户写笔记时进行即时抄写。
身份验证自动身份认证是 OCR 能够充分发挥作用的另一个领域。在互联网金融和海关等领域,用户/乘客需要提供身份证和护照等身份信息。自动识别和分析所提供的文档将需要 OCR 来读取和提取文本内容,并且可以自动并大大加快这些过程。有些公司已经开始研究基于人脸和身份证的身份识别,例如 MEGVII。
增强计算机视觉由于文本是理解场景的基本元素,OCR 可以在许多方面辅助计算机视觉。在自动驾驶车辆的场景中,嵌入文本的面板携带重要信息,例如。
地理位置、当前交通状况、导航等。。
在自动驾驶车辆的文本检测和识别方面已经有几项工作。迄今为止最大的数据集 CTW 也特别强调交通标志。另一个例子是即时翻译,OCR 与翻译模型相结合。这是非常有帮助的和节省时间的,因为人们旅行或阅读文档都使用信息语言。谷歌的翻译应用程序可以执行这种即时翻译。一个类似的应用是配备 OCR 的即时文语转换软件,它可以帮助那些有视觉障碍和文盲的人。
智能内容分析 OCR 还允许行业进行更智能的分析,主要针对视频共享网站和电子商务等平台。可以从图像和字幕以及实时评论字幕(一种由用户添加的浮动评论,例如 bilibili 和 nico 中的评论)中提取文本。一方面,这种提取的文本可以用于自动内容标注和推荐系统。它们还可以用于执行用户情绪分析,例如,视频的哪个部分最吸引用户。另一方面,网站管理员可以对不适当和非法的内容进行监督和过滤,如恐怖主义宣传。
结论
算法在过去的几年里,得到了很大长足的发展,尤其是在文本检测和识别上,这主要得益于深度学习的兴起。深度学习模式已经取代了对其模式和特性的手动搜索和设计过程。随着模型性能的不断提高,面向对象和文本检测等挑战引起了人们的关注,并取得了长足的进展。但是我们应该知道的是深度学习在现实场景中仍然存在这很大的局限性,例如在文本识别领域,它在英文文本上有着不错的效果,但是在面对中文或是日文时,它的表现效果就不是那么优秀了。除了这种文字符号信息,有些语言的外观要复杂得多,因此它们对图像质量的影响更为敏感,研究人员应该首先验证现有算法对其他语言的文本以及混合文本的推广能力。多语种的统一检测与识别系统具有重要的学术价值和应用前景。一个可行的解决方案是探索能够捕获不同语言的共同模式和文本实例的组合表示,并用文本合成引擎生成的不同语言的文本实例训练检测和识别模型。并且,模型的鲁棒性也是当前深度学习应用中一个必须考虑的问题。此外,除了模型压缩和轻量级模型在其他任务中已经被证明是有效的之外,研究如何为文本相关任务定制加速机制也很有价值。
在数据层面上,我们知道,大多数广泛被采用的数据集的大小都很小。它的效果如何?到底是从现有算法中它得到的改进是可以扩展的,还是说它仅仅是更好的正则化的偶然结果,这将是一个值得研究的问题。此外,大多数数据集只使用边界框和文本进行标记。对语言艺术和韵味等不同属性的详细注释可能会有针对性地指导研究人员后期的研究。最后,以现实世界挑战的特征数据集对于推进研究进展也很重要,例如产品上密集的文本。另一个相关的问题是,大多数现有的数据集没有对应的验证集。由于测试集的过度拟合,当前的成果的评估结果很有可能是向上偏移的。对此,我们建议研究人员应关注大型数据集,如 ICDAR MLT 2017, ICDAR MLT 2019, ICDAR ArT 2019, and COCO-Text.
致谢
本文由南京大学软件学院 2021 级硕士何家伟翻译转述。
感谢国家重点研发计划(2018YFB1403400)和国家自然科学基金(61003024,61170067)资助。