新闻资讯TextIn 2026年4月产品升级公告

TextIn 2026年4月产品升级公告

2026-05-11 10:59:15

一、⭐智能文档解析(xParse 解析引擎)

1. 新一代 xParse 解析引擎优化

三月份灰度上线的新一代解析引擎本月继续优化,新增以下核心能力:

1.1 引擎可替换能力(force_engine 参数)

支持调用时指定底层解析引擎,用户可根据文档类型或测试需求选择最合适的引擎,也便于横向对比不同引擎的效果。

image

GUI 识别引擎特别说明

  • 精准解析界面中的按钮、输入框、复选框、标签等 UI 元素的类型、位置、文本内容及交互属性。
  • 仅支持图片格式(JPEG、PNG、GIF、WebP),文件大小不超过 10MB。
  • 返回的数据结构与普通文档解析略有不同,详见 GUI 识别引擎特别说明

image

1.2 新增文件预处理参数

在请求中可通过 capabilities 字段配置预处理选项,提升文档质量:

  • remove_watermark(去水印):自动检测并去除文档中的水印,减少干扰,获取干净解析结果。类型 boolean,默认 false
  • crop_dewarp(切边矫正):自动检测文档边界并进行切边、去倾斜、透视矫正,适用于扫描件多余边框、拍照畸变(如书页弯曲)等场景。类型 boolean,默认 false

使用示例:

{
  "capabilities": {
    "remove_watermark"true,
    "crop_dewarp"true
  }
}

1.3 engine_params 中新增支持 parse_mode

引擎参数中可指定 PDF 文档的解析模式:

image

可通过以下方式配置:

{
  "config": {
    "force_engine""textin",
    "engine_params": {
      "parse_mode""vlm",
      "formula_level": 0,
      "image_output_type""url"
    }
  }
}

2. 问题修复

  1. 修复标题和文本段落错误合并的问题:优化了版面分析逻辑,避免标题与后续段落被误合并,确保输出结构符合文档原始层级。

  2. 修复 parse 模式字符坐标错乱的问题:修正了特定场景下字符级别坐标信息异常的情况,提升坐标输出的准确性。

  3. 新增印章识别内容校验:当印章识别结果为空时,自动进行外扩区域重试,提高印章内容的检出率与完整性。

热门资讯

热门产品
热门标签

background
background
400-6666-582
免费使用
人工咨询
人工咨询
技术交流群
技术交流群

联系我们