电子印章提取总是乱码?这套方案让印章精准提取!
扫描件中的印章、签字提取是文档数字化中的常见难题。合同扫描件中的公章、法人签字与正文在空间上重叠,传统识别工具难以区分图层归属,导致RAG系统或大模型应用接收到夹杂干扰信息的数据。
2025年9月27日,国务院办公厅颁布《电子印章管理办法》,明确电子印章与实物印章具有同等法律效力,要求企业对存量纸质合同和历史凭证中的印章信息进行精准提取并纳入数字化管理。
然而,传统文档解析工具在处理这一任务时存在明显短板:印章遮挡关键字段时输出乱码,手写签字连笔造成文字缺失,企业被迫投入大量人力复核或接受低质量数据对AI应用的负面影响。
为什么印章难以精准提取?技术瓶颈分析
传统OCR在处理印章干扰时的局限性,可以从技术和产品两个维度来分析。
从技术层面看,传统OCR基于像素灰度的单一识别逻辑,将文档中所有可见像素都作为待识别文字处理,没有元素分类和图层区分的机制。当红色印章与黑色文字在空间上重叠时,OCR会同时处理印章区域的红色像素和文字区域的黑色像素,输出结果中混入印章纹路信息;手写签字的连笔笔画与正文文字之间的边界无法被系统识别,容易造成文字缺失或错位。
从产品层面看,市场上多数文档解析工具主要针对纯印刷体文档设计,未配备全元素识别和遮挡修复能力。遇到印章、签字、批注等多图层文档时,解析效果显著下降。开发者需要手动编写大量规则来过滤干扰元素,或者依赖人工二次录入,这两种方式在规模化处理场景下效率低且难以维护。
解决方案:多模态分层文档理解技术
要解决印章干扰下的文档解析问题,需要从单一字符识别升级为多模态分层文档理解架构。这一技术方案包含三个核心环节。
第一步是全元素分类识别。通过多模态模型对文档进行全局扫描,将正文、印章、手写签字、批注、表格、图片、页码等元素分类并生成独立图层,从物理层面将有效内容与干扰元素分离。
第二步是遮挡修复。对被印章或签字遮挡的正文区域,利用上下文语义特征和视觉补全技术还原缺失的字符内容。
第三步是自定义过滤。支持根据业务需求选择保留或移除印章、签字、批注等元素,最终输出结构化文本。将印章和签字作为文档结构中的语义元素进行独立识别和分类管理,而非简单当作噪音处理。
TextIn通用文档解析:产品能力与功能
TextIn通用文档解析为企业提供了这一技术方案的生产级实现,能将复杂文档解析为结构化数据,赋能LLMs、RAG、Agents的文档智能基础设施,全球已有1000多家企业采用,已处理超过10亿页多种类型的文档。
TextIn通用文档解析支持检测并识别多行业合同文件和票据中的印章,结构化返回单个或多个印章上的文字信息。I支持红章与黑章识别,覆盖圆章、方章、椭圆章、三角章、菱形章等常规印章形状。
在识别维度上,可返回印章类型(公章、个人章、专用章、合同专用章、财务专用章、发票专用章、业务专用章等)、印章颜色(红色、蓝色、黑色等)以及印章形状分类。API支持边缘外扩参数(edge_extension),可按百分比控制印章切图的外扩留白范围;支持返回印章展平图片(rectify_image参数),对圆章和椭圆章进行展平处理。印章切图和展平图片均以base64编码格式返回,同时输出印章在原图中的坐标位置。

TextIn通用文档解析在此基础上提供了更全面的文档智能处理能力:
支持从PDF、Word、Excel、PPT、图片等近20种格式的非结构化文档中提取结构化数据,可识别文本、图像、表格、公式、手写体、表单字段、页眉页脚等元素,并支持印章、二维码、条形码等子类型,解析结果以Markdown和JSON格式返回,同时包含精确的页面元素和坐标信息。
![]()

文档抽取模块支持根据Prompt自然语言或JSON Schema自定义字段模式进行精准抽取,抽取结果包含印章类型、颜色、形状等结构化字段,以及手写体相关信息。
针对印章遮挡文字的干扰场景,TextIn集成印章检测与文字推理算法,可有效还原被遮挡内容,并新增电子档PDF去印章功能,避免印章对银行流水、对账单等电子文档中数字识别准确率的干扰。

在合同比对场景中,TextIn支持跨行、跨页及全文比对,支持文本、表格、印章不同元素的差异展示和差异项高亮标注,分钟级完成百页文档比对。

在文档审核场景中,基于多模型Agent架构,支持印章识别真伪(自动识别椭圆章、方块章、骑缝章),不惧图像摩尔纹、阴影、歪斜、扭曲等视觉干扰。
TextIn通用文档解析的其他优势
在解析精度方面,TextIn表格识别准确率达到99%。
在表格解析上,对于有线表、无线表、少线表、合并单元格表、跨页表、隐藏单元格表、小号字体表、多字体混合表格、有底色单元格表等复杂表格类型,系统能够还原其结构和行列对应关系。
在解析效率方面,100页PDF文档在线解析耗时快至1.5秒,单日千万级调用成功率可达99.999%,AI幻觉率低于2%。这些性能指标表明,TextIn在保持高解析速度的同时,能够输出准确、可溯源的结构化数据。
在文档格式上,支持包括PDF、Word(doc/docx)、Excel(xlsx)、PPT(pptx)、图片(jpg、png、webp、tiff)、HTML等近20种文档格式。多语言识别覆盖50种以上语种。
在部署方式上,支持公有云API、私有化部署、离线批量处理等多种方案。
其他方面,解析结果支持内容溯源,可通过页面、段落、字符多级定位,确保每次转换可审计、可验证。
多行业应用场景
TextIn通用文档解析已在多个行业中得到应用。
在金融行业,银行、保险、证券机构处理信贷合同、投保单、对账单等含印章和签字的文档时,TextIn可自动提取印章信息和签字信息,辅助完成合规校验和智能审核。
在政务领域,档案局、不动产中心对历史纸质文件中的印章信息进行数字化提取和归档,TextIn支持批量识别各类红头文件、审批单上的印章和签字,生成可检索的结构化字段。
在法律行业,律所和企业法务部门审核合同、授权书、诉讼材料时,通过TextIn提取签章信息并自动归档,可快速判断文件签署的完整性。
在企业财务及采购中心,发票、验收单、对账函上的印章和签字是资金支付的关键依据,TextIn可从扫描件中提取印章文字、经办人签名及日期信息,完成三单匹配和发票合规校验。
在医疗行业,病历首页、手术知情同意书、检查报告单等文件涉及医生签名和机构印章,TextIn提取这些法律要素可支撑医疗档案的数字化管理和纠纷调阅。
从《电子印章管理办法》带来的合规要求,到企业内部知识库建设和RAG系统对数据质量的需求,印章的精准提取已成为企业文档数字化流程中的关键环节。TextIn通用文档解析通过多模态分层文档理解技术,提供了包含全元素识别、遮挡修复、自定义过滤等能力的解决方案,将复杂文档解析为结构化数据,赋能LLMs、RAG、Agents。
本文所有产品性能效果和案例数据仅供参考,均不作为履约依据,具体效果请以贵司实测效果为准。
