资讯中心
关注 TextIn 最新动态,了解最新产品动态。Text Intelligence 专注智能文档处理领域17年,为全球用户提供智能图像处理、文字表格识别、卡证票据识别产品与云服务。

全球首个IMO(国际数学奥林匹克)金牌AI诞生!了解背后的公式识别提取技术

2025-08-15 15:48:47

在刚刚结束的2025年国际数学奥林匹克(IMO)中,AI大模型领域迎来里程碑式突破: 
Google DeepMind 推出的 Gemini Deep Think 模型通过对 6 道高难度数学题的自然语言理解与解答,获得与人类金牌同级的 35 分成就,得到了 IMO 主办方的正式批阅认证。与此同时,OpenAI 的实验性模型在相同考试条件下(无网络、4.5 小时限时、自然语言回答),也取得了金牌级别的成绩。

image

大模型在极端逻辑推理任务中的成功不仅令业界瞩目,更暗示了一个核心逻辑:若要让机器理解数学,它必须先读懂公式——即从图像或版面中精准提取数学表达并重建其结构,进而才能进行符号级别的语义推理与调用。换而言之,公式提取识别能力影响大模型在教育、知识库、科研语义检索等落地场景中的表现。


01 | 公式识别提取的应用场景及价值

  • 教育与教评:作业/试卷的公式提取识别后,结合规则与模型对“符号误用/优先级错误”做细项定位,支持批量电子化与错因分析反馈。

  • 学术与检索:论文公式结构化为 LaTeX/MathML 后建立“公式‑主题‑文献”三维索引,实现“以式搜文”,显著缩短检索与整理时间。

  • 企业知识库与 RAG:技术白皮书、专利与说明书的公式提取识别可提升问答召回的可解释性,减少“只看文字不懂结构”的幻觉风险。

image


02 | 识别复杂公式,有哪些步骤?

要把公式提取识别真正用起来,关键的技术步骤通常包含:

1)版面级定位:对文档进行版面理解,区分正文、表格、图形与公式,适配内联/显示式、跨页断裂与密集符号。常用思路为目标检测+实例分割(如两阶段检测器与特征金字塔),以在复杂背景中稳定提取公式区域。

2)表达式识别:通过视觉编码器(CNN/ViT/Swin)与序列/树结构解码器(RNN/Transformer/Tree‑Decoder),将公式图像转为结构化表达。实践中需兼顾上下文全局关系与细粒度符号差异。

3)结构还原与规范化:对分数、上下标、根式、矩阵等进行层级树还原,并做语法规范化(如空格、等价记号、命令别名统一),以便于检索、比对与去重。


03 | TextIn公式提取识别的技术方案

在实际的公式提取识别中,数学表达式往往呈现树状结构:符号之间存在多级嵌套、上下标、矩阵、分式等复杂关系。传统做法通常使用序列解码器或树解码器,以深度优先的顺序逐一识别符号及其关系。然而,这种方式在结构复杂的公式上会导致解码步骤冗长,不仅增加计算开销,还可能累积识别误差。

针对这些瓶颈,TextIn 技术团队提出了基于树结构的 HMER(Hybrid Mathematical Expression Recognition)模型,并引入分支并行解码(Branch-Parallel Decoding)机制。该方法通过显式预测符号之间的关系,直接解析公式树结构,将原本串行的长路径拆分为多个可并行处理的分支,大幅缩短了解码时间,同时减少长序列注意力带来的性能下降。

图片

核心创新点

  • 分支并行解码:将公式树的不同分支同时解码,减少长链路依赖,提升速度与稳定性。

  • 查询构造模块(Query Construction):为每个分支动态生成上下文查询向量,引导模型精准聚焦关键符号与结构关系。

  • 结构感知解析:在检测阶段结合版面信息与符号分布,对跨页断裂、内联公式、密集布局等场景实现结构还原。

image


对于希望建设高质量知识库与检索能力的企业而言,将公式提取识别纳入文档智能底座,已经是提升检索准确率、推理稳定性与工程可维护性的必选项。TextIn 在这一方向提供了从检测、识别到结构还原与质检的一体化方案,既贴合最新研究范式,又面向大规模生产环境优化。

👋 欢迎体验TextIn公式识别提取能力

background
background
400-6666-582
免费使用
人工咨询
人工咨询
技术交流群
技术交流群

联系我们