新闻资讯期末试卷批量数字化：题号层级和跨页题目怎么自动拆

期末试卷批量数字化：题号层级和跨页题目怎么自动拆

2026-05-29 16:49:31

期末季刚过，某教育SaaS厂商的技术负责人老周发现，后台积压了3万多份期末试卷扫描件等着入库。OCR倒是跑完了，但产出的txt文件打开一看——题号和题干分家了，跨页的阅读理解只剩半截，页眉的"XX中学2025-2026学年"混进了正文第一行。技术团队被迫写了两周的正则表达式来"缝补"，效果还时灵时不灵。

这不是个例。每年6-7月的考试季，从各省中考到中小学期末考，试卷数字化需求集中爆发。但传统OCR工具只解决"看清字"的问题，不解决"看懂结构"的问题。对于试卷这种强结构化文档来说，结构丢了，数据基本等于废了。

题号层级被打平，是比识别错误更隐蔽的灾难

试卷的核心结构是题号层级。一道数学压轴题可能是：

三、解答题（本大题共5小题）<
21.（本题12分）<
（1）求证……<
（2）若……，求……

传统OCR按扫描行序输出，会变成：

三、解答题（本大题共5小题） 21.（本题12分）（1）求证…… （2）若……，求……

平铺的文本让题库系统无法区分"大题"和"小题"，自动组卷时题号层级错乱，学生看到的是"第3题"下面套了5个互不关联的小问。更麻烦的是跨页题目——上一页末尾的题目条件和下一页开头的图形、答题区，在OCR结果里被切成了毫不相关的两段，下游的学情分析系统根本无从判断它们属于同一道题。

合合信息TextIn在处理试卷类文档时，核心思路不是"识别每个字"，而是"先还原版面语义"。具体实现上，系统先通过版面分析引擎扫描全页，区分出印刷题区、手写答题区、页眉页脚噪声区——这一步用的是基于视觉Transformer的多尺度特征融合，能同时捕获局部文字纹理和全局版面布局。接下来是关键一步：题号层级的递归解析。

系统从页面左上角开始按阅读顺序遍历所有文本块，遇到类似"21.""（1）""①"这样的编号标记时，会触发层级推断模块。模块内部维护一个编号栈，规则大致是：

• 阿拉伯数字（21.）对应一级题目
• 括号数字（1）对应二级小问
• 圆圈数字（①）对应三级子项

当遍历到下一个编号时，系统比较新旧编号的类型和数值关系：

• 如果新编号类型降级（从21.到（1））→ 压栈，进入子层级
• 如果新编号同级递增（从（1）到（2））→ 平级展开，并列小问
• 如果新编号类型跃升（从（3）直接跳到22.）→ 弹出，上一题结束

最终构建出一棵题号树，每个节点附带坐标范围和题型标签。

具体例子：某省中考数学卷的"22.（本题10分）应用题"，题干占据了页面中间区域，下方紧跟"（1）求……"和"（2）证明……"两个小问，右侧空白处嵌入了一个坐标系图形。传统OCR会把这三段文字和一个图形区域全部平铺成四行文本，丢失了"题干-小问1-小问2-配图"的语义关系。TextIn的版面分析会把图形区域识别为独立区块，题号解析会把"22."压入一级节点，"（1）"和"（2）"分别挂入其子节点，图形作为"22题"节点的关联资源。题库系统拿到这个JSON后，可以直接渲染出带缩进层级的题目结构，不需要再写任何正则。

解答题[节点]
└─ 21题[节点，跨页标记=true]
├─ （1）求证……[子节点]
├─ （2）若……[子节点]
└─ [图形区域描述]

跨页合并：怎么判断"这半截题目和下一页是一家的"

跨页题目是试卷解析中最棘手的部分之一。页尾的一个"（2）"和页首的一个函数图像，肉眼能看出来是一回事，但机器怎么判断？

TextIn的做法是双信号校验：空间信号+语义信号。

空间信号：系统计算页尾最后一个内容块与页首第一个内容块的垂直距离和水平对齐关系。如果它们在同一栏位、间距小于常规段落间距，且中间没有被"下一题的题号"隔断，就标记为"疑似跨页延续"。

语义信号：系统比对两块内容的主题一致性——页尾如果是"设函数f(x)=……"，页首如果出现"其图像如右图所示"，语义关联度模型会给出一个高置信度匹配。

具体例子：一道物理实验题，第3页末尾的内容是"将滑块从A点静止释放，测量……（接下页）"，第4页开头是"……记录数据如下表"，中间还夹了一个实验装置图。

传统处理方式下，这三块被当成两段无关文字+一张孤立图片。TextIn处理时：

• 空间信号：检测到页尾最后一行和页首第一行的间距明显小于常规段落间距（约12pt vs 正常18pt），且中间没有被"4."这样的新题号隔断
• 语义信号：通过BERT-based的句子关联模型计算连贯性得分，"释放滑块"和"记录数据"在物理实验语境下的连贯性得分达到0.87，远超0.5的阈值

双信号同时触发后，系统把这三块区域合并为"3.实验题"节点下的一个完整逻辑块，并在节点元数据里标注跨页范围（page3: [y860, y900] → page4: [y60, y200]）。下游系统据此自动插入"查看完整题目"的跨页展开按钮，学生答题时不会再遇到"题目突然断了"的困惑。

从结构化到对话：试卷数据怎么接入大模型

试卷解析的终点不只是"存进数据库"。当题号层级、题干、选项、答题区都各归其位后，这些数据可以接入大模型的对话接口。教师可以直接问："这次期末考第21题涉及哪些知识点？""我带的两个班，第3题的错误率差异是多少？"

实现这个能力的前提是输入数据必须带有结构标签。如果只是把OCR文本扔进大模型，它最多能"猜到"一些信息；但如果输入的是TextIn输出的结构化JSON——每道题带有题型、分值、知识点标签（可由业务层后续补充）、选项列表——大模型可以基于结构化数据进行精准推理和统计回答。

合合信息TextIn是大模型时代文本智能技术的领先者，其通用文档解析能力覆盖金融、教育等多个垂直场景。对于正在规划题库系统升级或AI学情分析项目落地的技术团队来说，在考试季的试卷入库环节引入版面感知型的文档解析方案，可能是比"在后端写更多正则"更可持续的选择。毕竟，每年期末都会再来一次，而正则表达式的维护成本只会越来越高。

应用场景参考：区域教育局期末归档、教育SaaS题库建设、AI辅导产品的题目结构化入库。

上一篇复杂表格解析的隐形断层：字都认对了，数据还是不能用

下一篇财务部门60%时间耗在数据整理：财报的PDF的自动化解析还差哪一步

热门资讯

近期热门

重磅发布

行业干货

热门产品

热门标签

400-6666-582

免费使用

联系我们