寰擎信息:效率提升70%!TextIn xParse助力金融数据平台突破文档处理瓶颈
1 客户简介
寰擎信息是国内专注服务金融机构的头部大数据与金融科技企业,通过其“DM”系列平台(同业平台、固收平台、终端)为债券市场提供报价、机构库、评级、舆情、信用基本面等综合服务。其客户覆盖90%以上券商、95%以上公募基金、75%以上银行等上万家金融机构,在信用债与固收投研信息服务领域稳居第一梯队。
2 背景与挑战
作为固收投研领域的数据服务商,寰擎信息的业务包括挖掘、整理、分析海量固定收益与信用市场相关的文档、数据、报告,并通过终端产品交付给金融机构客户。随着业务涉及财报附注、复杂图表、境外债文件、研报等更多文档类型,传统数据处理模式的瓶颈逐渐显现。
原有的数据生产流程主要依赖人工与正则表达式提取关键数据,高峰期还需额外人力,以较高成本保障时效性和准确度。与此同时,文档类型、格式、语言的多样化趋势,对数据处理能力提出了更高要求。
核心挑战:
人工处理已成规模化瓶颈:海量文档依赖人工与正则提取,维护成本高、难以扩展,尤其面对复杂文档时效率较低。
传统方法难以覆盖复杂场景:纯正则提取对版面变化敏感,规则需频繁调整;对复杂图表、跨页表格、目录层级、图表与标题关联等需求覆盖不足。
业务扩展需要产能升级:随着报告解读等新场景的引入以及更多垂类功能板块的迭代,对数据产量和生产效率提出更高的要求。
3 xParse解决方案
经过多轮评估,寰擎信息数据团队选择TextIn xParse作为其文档智能处理的核心引擎。
1.通用文档智能,覆盖多样化场景
xParse提供成熟的文档解析、图表识别、目录层级提取能力,覆盖企业年报、财报、研报、附注、复杂图表等多元文档类型,支持中英文及跨语种处理。

2.结构化能力满足业务端展示要求
xParse实现了:
目录层级保留与展示:支持研报等长文档的层级结构提取,用户可清晰溯源定位
图表与标题关联:实现图表与其上下文标题的智能关联,提升信息理解效率
跨页表格合并:针对多页表格合并逻辑二次优化,稳定性大幅提升

3.与现有技术架构无缝对接
xParse能够与现有技术栈深度集成:
支持OSS存储(文档原始信息、解析JSON结果)
封装HTTP接口供业务查询
与n8n平台、coze数据业务流程框架协同工作
4 落地成效
自部署以来,xParse已在寰擎信息多个核心数据生产场景中稳定运行,显著提升了数据处理效率与业务能力:
1.效率大幅提升,人力成本显著降低
财报附注等复杂文档场景,工作流覆盖率已达90%,相比人工处理效率提升70-80%。传统需数人处理的任务,现已实现自动化流程,数据团队无需频繁进行“规则维护”。
2.支撑新业务场景快速落地
每周可稳定处理报告500份以上,支持RAG场景的目录层级展示、观点总结、图表关联与溯源定位。支持新发报告T+0输出,时效性与准确率显著提升。
3.系统稳定性与可扩展性得到验证
跨页表格合并等难点问题稳定性大幅提升,解析结果作为标准化服务输出,支持数据组、业务端、算法团队的协同调用,为后续业务多维拓展提供了技术支撑。
通过引入TextIn xParse,寰擎信息成功突破了数据生产的效率瓶颈,将数据处理能力从“人力密集型”升级为“自动化+智能质检”的高效体系,为其产品持续创新与市场扩展提供了坚实的技术底座。