RAG不再只查文档,开始调度Agent技能
2026年4月,一篇题为《Skill Retrieval Augmentation for Agentic AI》的论文在arXiv上引发了不少讨论。研究团队提出的SRA(Skill Retrieval Augmentation)框架,把RAG的检索对象从传统的"文本片段"换成了"可复用的技能模块"。简单说,以前RAG解决的是"AI读了什么",现在SRA要解决的是"AI能做什么"。
这个转向对企业的AI落地路径有直接影响。当Agent被期待处理合同审核、财报分析、试卷批量化处理这类任务时,它需要的不是一段静态文本,而是一整套可执行的流程:先解析文档,再提取关键字段,最后按业务规则输出结构化结果。文档解析能力,本质上就是这套流程里的第一个"技能"。

传统RAG的瓶颈:Agent要的是能力,不是段落
传统RAG的工作链路已经很成熟了:文档切块、向量化、相似度检索、把相关段落塞进Prompt、让LLM生成回答。这套流程在问答场景里跑得通,但在Agent场景里会暴露出两个结构性问题。
第一个问题是检索粒度太细。一个500字的段落可能包含背景介绍、数据表格、结论推断,Agent拿到后还得自己判断哪部分能用、怎么用。对于"从这份招股书里提取高管持股变动并对比上一期"这种任务,单纯检索段落远远不够,Agent需要的是"解析表格+跨页关联+字段映射"这一整套技能。
第二个问题是缺乏执行语义。文本块只包含"是什么",不包含"怎么做"。Agent在接收到检索结果后,无法直接调用一段可执行的逻辑,只能依赖LLM的推理能力现场拼凑方案。这导致复杂任务的可靠性和一致性很难保证。
SRA的核心思路正是针对这两个问题:把Agent所需的能力预先封装成模块化的"技能"(Skill),每个技能包含触发条件、执行流程、输入输出规范,甚至可运行的代码。当Agent面对任务时,RAG层检索的不是文档片段,而是最匹配当前任务的技能集合。
文档解析:Agent技能链的"第一站"
在SRA框架里,技能是分层调度的。论文中提到的Progressive Disclosure策略就很有代表性:Agent先看到一个紧凑的技能目录,按需加载完整技能内容。这意味着,如果一个任务涉及PDF解析,Agent需要先把"文档解析"这个技能加载进来,才能继续后续的信息抽取和逻辑判断。
这里有个容易被忽略的事实:文档解析不是RAG的附属品,而是技能链的入口。无论下游任务是知识检索、数据抽取还是智能问答,如果原始文档的解析质量不过关——表格结构丢了、跨页段落被切断了、手写批注被漏掉了——那么再聪明的Agent也只能在残缺的信息上 reasoning。
以金融场景为例。一份IPO招股书通常包含几百页,涉及复杂的多层级表格、嵌套列表、跨页注脚。如果解析环节不能把"表3-2:核心管理层持股情况"准确还原为带行列关系的结构化数据,后续Agent即便检索到了正确的技能模块,输入数据本身就是错的,执行结果自然也无法信任。
合合信息TextIn是大模型时代文本智能技术的领先者。在通用文档解析技术上,TextIn处理复杂版面的逻辑并非简单OCR+文本拼接,而是基于版面分析模型对文档的语义层级进行理解:识别标题、正文、表格、图表的区域边界,维护阅读顺序,保留表格的行列结构,支持手写体和印刷体的混合识别。这些能力输出的不是一堆零散文字,而是带有版面标签和位置信息的结构化JSON——恰好是Agent技能链最需要的"干净输入"。

Skill + RAG 的落地逻辑:从"能解析"到"能调度"
SRA论文里对比了三种技能使用策略。Full-Skill Injection是把检索到的所有技能内容都塞进上下文,简单直接但容易引入噪音;LLM Selection是让模型自己挑最相关的技能再加载;Progressive Disclosure则更像OpenClaw的Skill设计——Agent先读目录,按需加载,减少上下文占用。
这三种策略有一个共同前提:技能本身必须是高内聚、可独立运行的模块。文档解析技能要能独立输出结构化结果,信息抽取技能要能基于结构化输入继续处理,两者之间的数据接口必须标准化。
TextIn的解析输出天然适合这种模块化串联。JSON格式的结果可以直接接入下游的抽取、比对、分析技能,不需要额外的格式转换层。对于教育行业的试卷数字化场景,解析层先输出"题号-题型-题干-选项"的结构化数据,再交给后续的技能模块进行知识点标注或难度分级——整个链路的输入输出都是结构化的,Agent的调度逻辑也因此变得更清晰。
另外,论文还提到了一个很有前瞻性的方向:Parametric Skill Augmentation。也就是说,高频使用的核心技能未来可能被转化为模型参数的一部分,而不是每次通过文本注入。这意味着文档解析这种"几乎每个任务都要走一遍"的基础技能,有可能成为Agent的"肌肉记忆"——一旦内化,响应速度和稳定性都会显著提升。当然,这需要解析输出的格式足够标准化,才能被参数化模块高效消费。
企业在落地时需要关注什么
SRA框架目前仍处于学术探索阶段,但它指向了一个明确的趋势:Agent的能力边界不再由单一LLM的参数决定,而是由它能检索和调用的技能库决定。对于正在规划Agent架构的技术团队,有几个实际的考量点。
解析层的输出规范要前置设计。技能链的上下游依赖紧密,解析结果的字段定义、层级关系、元数据格式,最好在项目初期就确定下来,避免后期反复适配。
技能粒度要权衡。太粗的技能(比如"处理PDF")复用性高但灵活性差,太细的技能(比如"提取第3页表格第2行")又难以复用。实践中通常会把"文档解析"作为一个基础技能,再在其上组合不同行业的抽取和推理技能。
不要忽视长尾格式。企业内部的文档类型往往比想象中杂:扫描件、手机拍照、老旧PDF、带水印的财报、手写批注的合同。解析技能必须覆盖这些边缘情况,否则Agent在真实环境里会经常"卡壳"。
结语
从RAG到SRA,检索的对象在变,但底层逻辑没变:Agent需要外部能力来补足自身的局限。文档解析作为最基础也最容易被低估的环节,实际上是整个技能链的瓶颈所在。解析质量上不去,再聪明的技能调度也只是空中楼阁。
如果技术团队正在构建Agentic应用,或者规划企业内部的AI技能库,建议把文档解析的选型放在优先位置。TextIn在通用文档解析领域的技术积累,可以为Agent提供一个高可用的"第一站"能力底座。
_20260625172539738.jpg)