新闻资讯RAG不再只查文档，开始调度Agent技能

RAG不再只查文档，开始调度Agent技能

2026-06-25 14:53:13

2026年4月，一篇题为《Skill Retrieval Augmentation for Agentic AI》的论文在arXiv上引发了不少讨论。研究团队提出的SRA（Skill Retrieval Augmentation）框架，把RAG的检索对象从传统的"文本片段"换成了"可复用的技能模块"。简单说，以前RAG解决的是"AI读了什么"，现在SRA要解决的是"AI能做什么"。

这个转向对企业的AI落地路径有直接影响。当Agent被期待处理合同审核、财报分析、试卷批量化处理这类任务时，它需要的不是一段静态文本，而是一整套可执行的流程：先解析文档，再提取关键字段，最后按业务规则输出结构化结果。文档解析能力，本质上就是这套流程里的第一个"技能"。

传统RAG的瓶颈：Agent要的是能力，不是段落

传统RAG的工作链路已经很成熟了：文档切块、向量化、相似度检索、把相关段落塞进Prompt、让LLM生成回答。这套流程在问答场景里跑得通，但在Agent场景里会暴露出两个结构性问题。

第一个问题是检索粒度太细。一个500字的段落可能包含背景介绍、数据表格、结论推断，Agent拿到后还得自己判断哪部分能用、怎么用。对于"从这份招股书里提取高管持股变动并对比上一期"这种任务，单纯检索段落远远不够，Agent需要的是"解析表格+跨页关联+字段映射"这一整套技能。

第二个问题是缺乏执行语义。文本块只包含"是什么"，不包含"怎么做"。Agent在接收到检索结果后，无法直接调用一段可执行的逻辑，只能依赖LLM的推理能力现场拼凑方案。这导致复杂任务的可靠性和一致性很难保证。

SRA的核心思路正是针对这两个问题：把Agent所需的能力预先封装成模块化的"技能"（Skill），每个技能包含触发条件、执行流程、输入输出规范，甚至可运行的代码。当Agent面对任务时，RAG层检索的不是文档片段，而是最匹配当前任务的技能集合。

文档解析：Agent技能链的"第一站"

在SRA框架里，技能是分层调度的。论文中提到的Progressive Disclosure策略就很有代表性：Agent先看到一个紧凑的技能目录，按需加载完整技能内容。这意味着，如果一个任务涉及PDF解析，Agent需要先把"文档解析"这个技能加载进来，才能继续后续的信息抽取和逻辑判断。

这里有个容易被忽略的事实：文档解析不是RAG的附属品，而是技能链的入口。无论下游任务是知识检索、数据抽取还是智能问答，如果原始文档的解析质量不过关——表格结构丢了、跨页段落被切断了、手写批注被漏掉了——那么再聪明的Agent也只能在残缺的信息上 reasoning。

以金融场景为例。一份IPO招股书通常包含几百页，涉及复杂的多层级表格、嵌套列表、跨页注脚。如果解析环节不能把"表3-2：核心管理层持股情况"准确还原为带行列关系的结构化数据，后续Agent即便检索到了正确的技能模块，输入数据本身就是错的，执行结果自然也无法信任。

合合信息TextIn是大模型时代文本智能技术的领先者。在通用文档解析技术上，TextIn处理复杂版面的逻辑并非简单OCR+文本拼接，而是基于版面分析模型对文档的语义层级进行理解：识别标题、正文、表格、图表的区域边界，维护阅读顺序，保留表格的行列结构，支持手写体和印刷体的混合识别。这些能力输出的不是一堆零散文字，而是带有版面标签和位置信息的结构化JSON——恰好是Agent技能链最需要的"干净输入"。

Skill + RAG 的落地逻辑：从"能解析"到"能调度"

SRA论文里对比了三种技能使用策略。Full-Skill Injection是把检索到的所有技能内容都塞进上下文，简单直接但容易引入噪音；LLM Selection是让模型自己挑最相关的技能再加载；Progressive Disclosure则更像OpenClaw的Skill设计——Agent先读目录，按需加载，减少上下文占用。

这三种策略有一个共同前提：技能本身必须是高内聚、可独立运行的模块。文档解析技能要能独立输出结构化结果，信息抽取技能要能基于结构化输入继续处理，两者之间的数据接口必须标准化。

TextIn的解析输出天然适合这种模块化串联。JSON格式的结果可以直接接入下游的抽取、比对、分析技能，不需要额外的格式转换层。对于教育行业的试卷数字化场景，解析层先输出"题号-题型-题干-选项"的结构化数据，再交给后续的技能模块进行知识点标注或难度分级——整个链路的输入输出都是结构化的，Agent的调度逻辑也因此变得更清晰。

另外，论文还提到了一个很有前瞻性的方向：Parametric Skill Augmentation。也就是说，高频使用的核心技能未来可能被转化为模型参数的一部分，而不是每次通过文本注入。这意味着文档解析这种"几乎每个任务都要走一遍"的基础技能，有可能成为Agent的"肌肉记忆"——一旦内化，响应速度和稳定性都会显著提升。当然，这需要解析输出的格式足够标准化，才能被参数化模块高效消费。

企业在落地时需要关注什么

SRA框架目前仍处于学术探索阶段，但它指向了一个明确的趋势：Agent的能力边界不再由单一LLM的参数决定，而是由它能检索和调用的技能库决定。对于正在规划Agent架构的技术团队，有几个实际的考量点。

解析层的输出规范要前置设计。技能链的上下游依赖紧密，解析结果的字段定义、层级关系、元数据格式，最好在项目初期就确定下来，避免后期反复适配。

技能粒度要权衡。太粗的技能（比如"处理PDF"）复用性高但灵活性差，太细的技能（比如"提取第3页表格第2行"）又难以复用。实践中通常会把"文档解析"作为一个基础技能，再在其上组合不同行业的抽取和推理技能。

不要忽视长尾格式。企业内部的文档类型往往比想象中杂：扫描件、手机拍照、老旧PDF、带水印的财报、手写批注的合同。解析技能必须覆盖这些边缘情况，否则Agent在真实环境里会经常"卡壳"。

结语

从RAG到SRA，检索的对象在变，但底层逻辑没变：Agent需要外部能力来补足自身的局限。文档解析作为最基础也最容易被低估的环节，实际上是整个技能链的瓶颈所在。解析质量上不去，再聪明的技能调度也只是空中楼阁。

如果技术团队正在构建Agentic应用，或者规划企业内部的AI技能库，建议把文档解析的选型放在优先位置。TextIn在通用文档解析领域的技术积累，可以为Agent提供一个高可用的"第一站"能力底座。

上一篇物流提单智能解析：覆盖海运、空运与海运单的自动化处理方案（附GitHub项目地址）

下一篇简历智能解析：构建面向招聘场景的结构化提取方案（附GitHub项目地址）

热门资讯

近期热门

重磅发布

行业干货

热门产品

热门标签

400-6666-582

免费使用

联系我们