资讯中心
关注 TextIn 最新动态,了解最新产品动态。Text Intelligence 专注智能文档处理领域17年,为全球用户提供智能图像处理、文字表格识别、卡证票据识别产品与云服务。
OCR技术难点解读:数学公式检测与识别
2025-04-23

文档解析中的数学表达式检测与识别(Mathematical Expression Detection and Recognition, MEDR)是自然语言处理和计算机视觉交叉领域的重要技术,目的在于从文档中定位并解析数学公式,将其转化为结构化表示(如LaTeX、MathML等)。

文档中的数学表达式分为显示式(与普通文本分开)和内联式(嵌入文本行中)两种形式。显示式数学表达式更容易通过文档布局分析进行识别,而内联式数学表达式由于其与普通文本的接近性,需要专门的检测技术。

公式识别的核心技术步骤主要包括:

1. 检测(Detection)定位文档中数学表达式的区域,区分文本、表格与公式。

· 方法:传统图像处理方法(边缘检测、连通域分析)或基于深度学习的目标检测模型。

2. 识别(Recognition):将检测到的数学表达式(图像或手写体)转换为机器可读的符号化表示。

· 文本类公式:通过OCR技术结合LaTeX语法解析。

· 图像类公式:结合图像分割与符号识别模型进行解析。



为什么要攻克 公式解析难题?


在教育、科研等领域,数学表达式的应用相当常见。当文本OCR技术逐渐成熟,公式识别成为将这类文档转化成结构化可用数据的关卡。以下是两个常见场景:

教育智能化

在K12及高等教育中,学生作业、试卷中存在大量手写或印刷公式。传统教学中,作业与试卷一般需要教师进行人工批改。随着公式识别的准确率提升,更多智能化应用开始落地。

例如,基于MEDR技术,智能批改系统可自动识别学生答题步骤中的公式,结合符号语义分析错误逻辑(如符号误用、运算优先级错误),自动批改,并生成针对性反馈。在搜题软件中,学生也可以拍照上传错题,获得详解辅导。电子化笔记整理也是应用场景之一,MEDR技术能够辅助完成笔记、板书等内容从图片到可编辑格式的转化,避免耗时手打工作。

同时,教育服务机构也开始将教科书、教辅、试卷等资料转化为结构化数据,组成完善题库,并根据学生需要,提供针对性训练。

学术与科研

科研论文中经常包含复杂公式,其解析准确度决定了知识库质量,以及下游AI应用能否灵活调用有效信息。

另外,科研人员有时需要在论文库中搜索特定公式,但传统文本检索无法识别公式图像。MEDR技术可将论文中的公式转换为LaTeX或MathML代码,帮助学术平台构建可搜索的公式数据库,方便定位相关论文,加速文献调研。



MEDR技术发展


数学表达式检测与识别(MEDR)技术经历了从基于规则到数据驱动的转变。早期方法主要依赖于预定义的规则或文档布局分析来进行数学表达式的检测。随着深度学习的发展,数学表达式检测逐渐采用了类似目标检测的方法来处理文档图像中的数学表达式。

目前的MEDR利用深度学习模型,通过边界框定位或实例分割技术,精确地识别并分离出文档中的数学表达式区域,强化了对复杂和多样的数学表达式结构的处理能力。

图片

数学表达式检测(MED)

早期的数学表达式检测(MED)利用CNN进行定位。研究者尝试采用结合了CNN和传统手动特征提取的方法来生成边界框,或使用循环神经网络(RNN)处理字符序列[1, 2, 3],早期方法还不能实现完全端到端的检测,限制了其泛化能力和性能表现。

随着技术的发展,通用目标检测算法被改编用于MED,包括单阶段和两阶段方法:单阶段检测器如DS-YOLOv5 通过引入可变形卷积和多尺度架构提高了精度和速度[4];SSD则采用滑动窗口策略加速了尺度不变检测[5]。2021年,ICDAR竞赛展示了广义焦点损失(GFL)等进展,解决了类别不平衡问题,并通过特征金字塔网络提升了数学表达式的检测能力。两阶段检测器,尤其是R-CNN变体以一定程度上牺牲计算速度为代价提高了检测精度[6],而Faster R-CNN和Mask R-CNN通过区域提议网络(RPN)进一步优化提高性能[7, 8]。

实例分割算法与MED高度契合,能够有效管理非线性和密集的数学表达式配置。Mask R-CNN在其框架中引入像素掩码预测,显著增强了区域识别能力[9]。通过增强语义定位和整合检测与分割任务,PANet和混合任务级联(HTC)进一步改进了这些方法[10, 11]。2024年,FormulaDet将MED框架视为实体和关系提取问题,利用上下文和布局感知网络,在理解复杂公式结构方面取得了显著进展[12]。

数学表达式识别(MER)

数学表达式识别(MER)模型通常采用编码器-解码器架构,将图像中的视觉信息转换为结构化的格式,例如LaTeX。这些模型主要依赖基于CNN的编码器,近年来也开始整合基于Transformer的编码器以提升性能。在解码器方面,RNN和Transformer架构被广泛应用,许多改进措施进一步提高了模型的准确性和效率。

MER编码器的任务是从数学表达式的图像中提取有意义的特征,从而捕捉数学表达式的复杂性。传统的CNN因为擅长捕捉局部特征而被广泛使用,但在处理多尺度和复杂的数学表达式时常常面临挑战。为了克服这些问题,研究者引入了密集卷积架构和多方向扫描技术,来更好地捕捉空间依赖性。

· 卷积方法:DenseNet和ResNet等多样化的卷积架构被提出用于改进MER的特征提取[13, 14],后续研究者通过在CNN中增加RNN或位置编码,增强了对数学表达式结构的空间和上下文理解能力[15, 16]。

· Transformer编码器:鉴于CNN在处理长距离依赖关系方面的局限性,较新的模型利用基于视觉的Transformer,如Swin Transformer,通过自注意力机制提供了更强大的全局上下文管理能力,特别适用于处理复杂的数学表达式[17]。

在解码阶段,MER系统与OCR一样采用RNN和Transformer架构来处理序列数据。基于RNN的解码器通过增强的注意力机制生成与输入图像相对应的符号序列,在处理嵌套和分层表达式时表现出色。研究者通过引入门控循环单元(GRU)和注意力机制设计模型,实现了资源高效的处理方式,应对复杂数学表达式的挑战。此外,树结构和基于Transformer的解码器解决了梯度消失和计算开销的问题,从而增强了模型对各种公式符号的鲁棒性[18, 19]。



TextIn技术方案


近年来,主流方法通常将ME视为具有树结构的对象,由序列解码器或树解码器建模。这些解码器以深度优先顺序识别ME中的符号和符号之间的关系,导致解码步骤很长,这可能会损害其性能,特别是对于结构复杂的ME来说。TextIn技术团队提出了一种新的基于树的模型,具有HMER的分支并行解码,该模型通过明确预测符号之间的关系来解析ME树的结构。此外,还提出了一个查询构造模块来帮助解码器并行解码ME树的分支,从而减少解码时间步骤的数量,并缓解长序列注意解码的问题,从而提高识别性能。

图片
图片


💡点此进入在线体验最新的公式识别技术





background
background
400-6666-582
免费使用
人工咨询
技术交流群

联系我们