接入技术服务

通用文档解析预览版

功能描述

通用文档解析

重要特性 详情描述
适用场景 任意文档文件数字化
图像文件 支持各类常见图片格式,包括JPG/PNG/BMP/WEBP等
文档文件 支持各类常见的文档文件格式,包括PDF/ODF,混合支持电子档文字内容和扫描档文字内容
办公文件 支持各类常见的办公文档文件格式,包括docx/xlsx/pptx以及同类的类Office文档文件
标记语言 支持返回Markdown标记语言,可以通过URL参数精细控制使用不同的Markdown语法细节,如表格语法和标题语法等
版面分析 通过深度学习建模物理版面分析和逻辑版面分析,让图片或PDF等非结构化文档文件也能构成有序文档,复杂排版下能够有正确的段落输出
表格分析 通过深度学习建模表格分析,让图片或PDF等非结构化文档文件能够正确输出任意表格结构的文字内容
公式识别 通过深度学习建模数学公式,支持图片或PDF等非结构化文档文件能够把公式识别出来并以LaTex格式输出
语言种类 默认支持50+主流语言,包括简体和繁体中文,英语法语德语等拉丁语言,日语韩语等亚洲语言,俄语等西里尔语言,以及更多同类字符集的映射语言

请求URL

https://api.textin.com/ai/service/v1/x_to_markdown

HTTP请求方法(Method)

HTTP POST

请求头说明(Request Headers)

请在HTTP请求中添加以下自定义标头(Header)。

header 名
x-ti-app-id 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id
x-ti-secret-code 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-secret-code

URL参数(Parameters)

URL参数指以 {参数名}={参数值} 形式拼接到 URL 上的键值对。它以 ? 开头,不同参数之间使用 & 连接。形如 ?p1=v1&p2=v2
参数名 数据类型 是否必填 允许的值 描述
page_start integer 见描述

(仅用于PDF/ODF)表示从第几页开始进行解析。

page_count integer 见描述

(仅用于PDF/ODF)表示要进行解析的PDF页数。若不指定,最大转换前24页。

pdf_pwd string 见描述

(仅用于PDF/ODF)当文件为加密文档时,需要提供密码。备注:对前端封装该接口时,需要自行对密码进行安全防护。

pdf_dpi integer 见描述

(仅用于PDF/ODF)PDF文档的坐标基准,默认72dpi,推荐使用72dpi或者144dpi

pdf_page_render string 见描述

(仅用于PDF/ODF)是否把PDF渲染成图片并保存。

  • none: 不进行页图片的渲染和保存
  • url: 以URL方式保存于"pages"字段
  • oss 以ID方式保存于"pages"字段
  • base64 以base64方式返回页图像
pdf_parse_mode string 见描述

(仅用于PDF/ODF)是否强制使用OCR识别的方式进行文档解析。

  • auto 综合识别和解析方案
  • scan 仅按文字识别方式处理
char_detail integer 见描述

解析级别,

  • char_detail = 0 只返回每行字符,不返回字符的坐标和score
  • char_detail = 1 返回每个字符的坐标和score
  • char_detail = 2 返回每个字符的坐标和score,及(OCR)候选字符和候选字符score
output_word integer 见描述
  • output_word = 0 默认, 不做word输出。
  • output_word = 1 默认输出word文档,(当输入为图片, pdf时,开启该参数,可将结构化数据输出为word文档。需要配置document2word服务api。
md_format string 见描述

表示使用哪一套markdown语法标准是否生成markdown detials

  • default: 使用默认markdown语法
  • mathpix: 使用mathpix-markdown(https://mathpix.com/mathpix-markdown)
  • other: 其他markdown扩展语法
md_title integer 见描述

是否生成标题

  • 0: 不生成(默认)
  • 1: 生成多层级标题
md_detail integer 见描述

是否输出页面级别和段落级别的细节内容

  • 0: 不输出任何细节,仅提供最终结果字段"result.markdown"。
  • 1: 在输出最终结果字段基础上,同时输出页面级别的细节信息,包括每页的解析状态等。
  • 2: 在输出最终结果字段以及页面级别细节的基础上,同时输出段落级别的细节信息,包括每一段内容的正文和层级等。
md_table_flavor string 见描述

markdown里的表格格式

  • md 按md语法输出表格
  • html 按html语法输出表格
md_image string 见描述

获取markdown里的图片

  • none: 不返回任何图像
  • url: 返回页面内的图像对象,以URL方式存储于Markdown内容中

请求体说明(Request Body)

Content-Type: multipart/form-data

支持的文件格式:png, jpg, jpeg, pdf, bmp, tiff, docx, doc

响应体说明(Response)

Content-Type: application/json

JSON结构说明如下:

说明:所有接口响应中均包含字段 x_request_id(string类型),作为请求的唯一标识。

字段名 类型 描述
code integer 错误码,详见“错误码说明”
message string

错误信息

version string

文档解析引擎版本号

duration integer

文档解析引擎耗时(毫秒)

result object
+ src_page_count integer

当输入Pdf, Doc, Docx时,返回文档的总页数(并非pages的大小)

+ markdown string

markdown正文字符串

+ pages array

文档按照页为单位展开时,存储每一页的详情和状态(适用于PDF/ODF)

   ++ status string

表示当前页的引擎输出状态,或者error_message

   ++ page_id number

当前页码(若为流式文件,页码置为0)

   ++ durations number

当前页总耗时

   ++ image_id string

(仅用于PDF/ODF)当URL参数pdf_page_render=oss,本条字段存储图像上传对象存储后获得的图像ID。 下载方式:https://api.textin.com/ocr_image/download?image_id=xxx ,需要在headers里添加appid和key)
例如使用curl下载:
curl 'https://api.textin.com/ocr_image/download?image_id=xxx'
--header 'x-ti-app-id: c81f*************************e9ff'
--header 'x-ti-secret-code: 5508***********************1c17'

   ++ width integer

文档页宽度

   ++ height integer

文档页高度

   ++ angle integer

图像(中文字)的角度(当输入为图像时,默认为0,可选值0,90,180,270.

   ++ num integer

文档页吗

   ++ image object

文档页图像数据

    +++ base64 string

图像文件(jpg,png)的base64字符串

    +++ region array

图像在页图像中的区域(四边形4个点坐标)

    +++ path string

图像文件路径(如在zip包中的路径)

   ++ readable array

只有文字的 段落表格数据

   ++ content array

基础数据:文字行,图像等

   ++ structured array

结构化数据

+ paragraphs array

markdown详细信息

   ++ page_id integer

当前段落所在页码(仅用于PDF/ODF,否则常置为0)

   ++ paragraph_id integer

当前段落序号

   ++ outline_level integer

当前段落的标题级别: (最多支持5级标题)

  • 正文:-1
  • 一级标题: 0
  • 二级标题: 1 如此类推
   ++ text string

文本

   ++ type string

表示段落类型

  • paragraph: 段落类型,包括正文、标题、公式等文字信息
  • image:图片类型
  • table:表格类型
   ++ image_url string

当类型为image且md_image=url时,本字段存储图片的URL

   ++ content integer

段落内容是否属于正文内容

   ++ position array

(仅用于Image/PDF/ODF)表示段落所处的图像坐标或者PDF页图像坐标

metrics object

记录本次文档解析相关的重要衡量单位

+ document_type string

记录文档类型,若引擎判断文档类型非法,则无法进行正确的解析过程。

+ total_page_number integer

记录本次解析文档的应有的总页数(适用于PDF/ODF)。

+ valid_page_numer integer

记录本次解析文档的成功页数(适用于PDF/ODF)。

+ paragraph_number integer

记录本次解析文档的段落数,适用于所有文件类型。

+ character_number integer

记录本次解析文档的字符数,适用于所有文件类型。

JSON结构示例

{"code":200,"message":"success","version":"2.1.0","duration":888,"result":{"src_page_count":10,"markdown":"#HelloMarkdown","pages":[{"status":"success","page_id":0,"durations":612.5,"image_id":"90u12adcad08r2","width":0,"height":0,"angle":0,"num":0,"image":{"base64":"string","region":[0,0,0,0,0,0,0,0],"path":"string"},"readable":[{"type":"paragraph","text":"string","sub_type":"footer"},{"type":"table","rows":0,"cols":0,"cells":[{"row":0,"col":0,"row_span":0,"col_span":0,"content":[{"type":"paragraph","text":"string","sub_type":"footer"},"string"]}]}],"content":[{"id":0,"type":"line","text":"string","angle":0,"pos":[0,0,0,0,0,0,0,0],"sub_type":"handwriting","direction":0,"score":1,"char_pos":[[0,0,0,0,0,0,0,0]],"char_cand":[["string"]],"char_cand_score":[[1]]},{"id":0,"type":"image","pos":[0,0,0,0,0,0,0,0],"sub_type":"string","stamp_type":"公章","stamp_shape":"圆章","stamp_color":"红色","size":[0,0],"data":{"base64":"string","region":[0,0,0,0,0,0,0,0],"path":"string"}}],"structured":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"table","sub_type":"bordered","pos":[0,0,0,0,0,0,0,0],"rows":0,"cols":0,"columns_width":[0],"rows_height":[0],"continue":true,"cells":[{"row":0,"col":0,"row_span":0,"col_span":0,"pos":[10,10,100,10,100,50,10,50],"content":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]}]}]},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]},{"type":"footer","pos":[0,0,0,0,0,0,0,0],"blocks":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]},{"type":"table","sub_type":"bordered","pos":[0,0,0,0,0,0,0,0],"rows":0,"cols":0,"columns_width":[0],"rows_height":[0],"continue":true,"cells":[{"row":0,"col":0,"row_span":0,"col_span":0,"pos":[10,10,100,10,100,50,10,50],"content":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]}]}]}]},{"type":"header","pos":[0,0,0,0,0,0,0,0],"blocks":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]},{"type":"table","sub_type":"bordered","pos":[0,0,0,0,0,0,0,0],"rows":0,"cols":0,"columns_width":[0],"rows_height":[0],"continue":true,"cells":[{"row":0,"col":0,"row_span":0,"col_span":0,"pos":[10,10,100,10,100,50,10,50],"content":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]}]}]}]},{"type":"catalog","pos":[0,0,0,0,0,0,0,0],"blocks":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true}]}]}],"paragraphs":[{"page_id":1,"paragraph_id":0,"outline_level":0,"text":"HelloMarkdown","type":"paragraph","image_url":"string","content":0,"position":[217,390,1336,390,1336,460,217,460]}]},"metrics":{"document_type":"pdf","total_page_number":3,"valid_page_numer":3,"paragraph_number":18,"character_number":3280}}

错误码说明

错误码 描述
40101 x-ti-app-id 或 x-ti-secret-code 为空
40102 x-ti-app-id 或 x-ti-secret-code 无效,验证失败
40103 客户端IP不在白名单
40003 余额不足,请充值后再使用
40004 参数错误,请查看技术文档,检查传参
40007 机器人不存在或未发布
40008 机器人未开通,请至市场开通后重试
40301 文件类型不支持,接口会返回实际检测到的文件类型,如“当前文件类型为.gif”
40302 上传文件大小不符,文件大小不超过 10M
40303 文件类型不支持
40304 图片尺寸不符,图像宽高须介于 20 和 10000(像素)之间
40305 识别文件未上传
40400 无效的请求链接,请检查链接是否正确
30203 基础服务故障,请稍后重试
500 服务器内部错误
人工咨询
人工咨询
技术交流群
技术交流群

联系我们