通用文档解析预览版

功能描述

通用文档解析

重要特性	详情描述
适用场景	任意文档文件数字化
图像文件	支持各类常见图片格式，包括JPG/PNG/BMP/WEBP等
文档文件	支持各类常见的文档文件格式，包括PDF/ODF，混合支持电子档文字内容和扫描档文字内容
办公文件	支持各类常见的办公文档文件格式，包括docx/xlsx/pptx以及同类的类Office文档文件
标记语言	支持返回Markdown标记语言，可以通过URL参数精细控制使用不同的Markdown语法细节，如表格语法和标题语法等
版面分析	通过深度学习建模物理版面分析和逻辑版面分析，让图片或PDF等非结构化文档文件也能构成有序文档，复杂排版下能够有正确的段落输出
表格分析	通过深度学习建模表格分析，让图片或PDF等非结构化文档文件能够正确输出任意表格结构的文字内容
公式识别	通过深度学习建模数学公式，支持图片或PDF等非结构化文档文件能够把公式识别出来并以LaTex格式输出
语言种类	默认支持50+主流语言，包括简体和繁体中文，英语法语德语等拉丁语言，日语韩语等亚洲语言，俄语等西里尔语言，以及更多同类字符集的映射语言

请求URL

https://api.textin.com/ai/service/v1/x_to_markdown

HTTP请求方法（Method）

HTTP POST

请求头说明（Request Headers）

请在HTTP请求中添加以下自定义标头（Header）。

header 名	值
x-ti-app-id	请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id
x-ti-secret-code	请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-secret-code

URL参数（Parameters）

URL参数指以 {参数名}={参数值} 形式拼接到 URL 上的键值对。它以 ? 开头，不同参数之间使用 & 连接。形如 ?p1=v1&p2=v2

参数名	数据类型	是否必填	允许的值	描述
page_start	integer	否	见描述	（仅用于PDF/ODF）表示从第几页开始进行解析。
page_count	integer	否	见描述	（仅用于PDF/ODF）表示要进行解析的PDF页数。若不指定，最大转换前24页。
pdf_pwd	string	否	见描述	（仅用于PDF/ODF）当文件为加密文档时，需要提供密码。备注：对前端封装该接口时，需要自行对密码进行安全防护。
pdf_dpi	integer	否	见描述	（仅用于PDF/ODF）PDF文档的坐标基准，默认72dpi，推荐使用72dpi或者144dpi
pdf_page_render	string	否	见描述	（仅用于PDF/ODF）是否把PDF渲染成图片并保存。 none: 不进行页图片的渲染和保存 url: 以URL方式保存于"pages"字段 oss 以ID方式保存于"pages"字段 base64 以base64方式返回页图像
pdf_parse_mode	string	否	见描述	（仅用于PDF/ODF）是否强制使用OCR识别的方式进行文档解析。 auto 综合识别和解析方案 scan 仅按文字识别方式处理
char_detail	integer	否	见描述	解析级别, char_detail = 0 只返回每行字符，不返回字符的坐标和score char_detail = 1 返回每个字符的坐标和score char_detail = 2 返回每个字符的坐标和score，及(OCR)候选字符和候选字符score
output_word	integer	否	见描述	output_word = 0 默认，不做word输出。 output_word = 1 默认输出word文档，（当输入为图片， pdf时，开启该参数，可将结构化数据输出为word文档。需要配置document2word服务api。
md_format	string	否	见描述	表示使用哪一套markdown语法标准是否生成markdown detials default: 使用默认markdown语法 mathpix: 使用mathpix-markdown(https://mathpix.com/mathpix-markdown) other: 其他markdown扩展语法
md_title	integer	否	见描述	是否生成标题 0: 不生成（默认） 1: 生成多层级标题
md_detail	integer	否	见描述	是否输出页面级别和段落级别的细节内容 0: 不输出任何细节，仅提供最终结果字段"result.markdown"。 1: 在输出最终结果字段基础上，同时输出页面级别的细节信息，包括每页的解析状态等。 2: 在输出最终结果字段以及页面级别细节的基础上，同时输出段落级别的细节信息，包括每一段内容的正文和层级等。
md_table_flavor	string	否	见描述	markdown里的表格格式 md 按md语法输出表格 html 按html语法输出表格
md_image	string	否	见描述	获取markdown里的图片 none: 不返回任何图像 url: 返回页面内的图像对象，以URL方式存储于Markdown内容中

请求体说明（Request Body）

Content-Type: multipart/form-data

支持的文件格式：png, jpg, jpeg, pdf, bmp, tiff, docx, doc

响应体说明（Response）

Content-Type: application/json

JSON结构说明如下：

说明：所有接口响应中均包含字段 x_request_id（string类型），作为请求的唯一标识。

字段名	类型	描述
code	integer	错误码，详见“错误码说明”
message	string	错误信息
version	string	文档解析引擎版本号
duration	integer	文档解析引擎耗时（毫秒）
result	object
+ src_page_count	integer	当输入Pdf, Doc, Docx时，返回文档的总页数（并非pages的大小）
+ markdown	string	markdown正文字符串
+ pages	array	文档按照页为单位展开时，存储每一页的详情和状态（适用于PDF/ODF）
++ status	string	表示当前页的引擎输出状态,或者error_message
++ page_id	number	当前页码（若为流式文件，页码置为0）
++ durations	number	当前页总耗时
++ image_id	string	（仅用于PDF/ODF）当URL参数pdf_page_render=oss，本条字段存储图像上传对象存储后获得的图像ID。下载方式：https://api.textin.com/ocr_image/download?image_id=xxx ,需要在headers里添加appid和key）例如使用curl下载: curl 'https://api.textin.com/ocr_image/download?image_id=xxx' --header 'x-ti-app-id: c81f***********************e9ff' --header 'x-ti-secret-code: 5508*********************1c17'
++ width	integer	文档页宽度
++ height	integer	文档页高度
++ angle	integer	图像(中文字）的角度（当输入为图像时，默认为0，可选值0,90,180,270.
++ num	integer	文档页吗
++ image	object	文档页图像数据
+++ base64	string	图像文件(jpg,png)的base64字符串
+++ region	array	图像在页图像中的区域(四边形4个点坐标)
+++ path	string	图像文件路径(如在zip包中的路径)
++ readable	array	只有文字的段落表格数据
++ content	array	基础数据：文字行，图像等
++ structured	array	结构化数据
+ paragraphs	array	markdown详细信息
++ page_id	integer	当前段落所在页码（仅用于PDF/ODF，否则常置为0）
++ paragraph_id	integer	当前段落序号
++ outline_level	integer	当前段落的标题级别: (最多支持5级标题) 正文：-1 一级标题: 0 二级标题: 1 如此类推
++ text	string	文本
++ type	string	表示段落类型 paragraph：段落类型，包括正文、标题、公式等文字信息 image：图片类型 table：表格类型
++ image_url	string	当类型为image且md_image=url时，本字段存储图片的URL
++ content	integer	段落内容是否属于正文内容
++ position	array	（仅用于Image/PDF/ODF）表示段落所处的图像坐标或者PDF页图像坐标
metrics	object	记录本次文档解析相关的重要衡量单位
+ document_type	string	记录文档类型，若引擎判断文档类型非法，则无法进行正确的解析过程。
+ total_page_number	integer	记录本次解析文档的应有的总页数（适用于PDF/ODF）。
+ valid_page_numer	integer	记录本次解析文档的成功页数（适用于PDF/ODF）。
+ paragraph_number	integer	记录本次解析文档的段落数，适用于所有文件类型。
+ character_number	integer	记录本次解析文档的字符数，适用于所有文件类型。

JSON结构示例

{"code":200,"message":"success","version":"2.1.0","duration":888,"result":{"src_page_count":10,"markdown":"#HelloMarkdown","pages":[{"status":"success","page_id":0,"durations":612.5,"image_id":"90u12adcad08r2","width":0,"height":0,"angle":0,"num":0,"image":{"base64":"string","region":[0,0,0,0,0,0,0,0],"path":"string"},"readable":[{"type":"paragraph","text":"string","sub_type":"footer"},{"type":"table","rows":0,"cols":0,"cells":[{"row":0,"col":0,"row_span":0,"col_span":0,"content":[{"type":"paragraph","text":"string","sub_type":"footer"},"string"]}]}],"content":[{"id":0,"type":"line","text":"string","angle":0,"pos":[0,0,0,0,0,0,0,0],"sub_type":"handwriting","direction":0,"score":1,"char_pos":[[0,0,0,0,0,0,0,0]],"char_cand":[["string"]],"char_cand_score":[[1]]},{"id":0,"type":"image","pos":[0,0,0,0,0,0,0,0],"sub_type":"string","stamp_type":"公章","stamp_shape":"圆章","stamp_color":"红色","size":[0,0],"data":{"base64":"string","region":[0,0,0,0,0,0,0,0],"path":"string"}}],"structured":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"table","sub_type":"bordered","pos":[0,0,0,0,0,0,0,0],"rows":0,"cols":0,"columns_width":[0],"rows_height":[0],"continue":true,"cells":[{"row":0,"col":0,"row_span":0,"col_span":0,"pos":[10,10,100,10,100,50,10,50],"content":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]}]}]},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]},{"type":"footer","pos":[0,0,0,0,0,0,0,0],"blocks":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]},{"type":"table","sub_type":"bordered","pos":[0,0,0,0,0,0,0,0],"rows":0,"cols":0,"columns_width":[0],"rows_height":[0],"continue":true,"cells":[{"row":0,"col":0,"row_span":0,"col_span":0,"pos":[10,10,100,10,100,50,10,50],"content":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]}]}]}]},{"type":"header","pos":[0,0,0,0,0,0,0,0],"blocks":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]},{"type":"table","sub_type":"bordered","pos":[0,0,0,0,0,0,0,0],"rows":0,"cols":0,"columns_width":[0],"rows_height":[0],"continue":true,"cells":[{"row":0,"col":0,"row_span":0,"col_span":0,"pos":[10,10,100,10,100,50,10,50],"content":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true},{"type":"image","pos":[0,0,0,0,0,0,0,0],"lines":[1],"zorder":0,"content":[0]}]}]}]},{"type":"catalog","pos":[0,0,0,0,0,0,0,0],"blocks":[{"type":"textblock","pos":[0,0,0,0,0,0,0,0],"content":[0,1,2],"sub_type":"title","continue":true}]}]}],"paragraphs":[{"page_id":1,"paragraph_id":0,"outline_level":0,"text":"HelloMarkdown","type":"paragraph","image_url":"string","content":0,"position":[217,390,1336,390,1336,460,217,460]}]},"metrics":{"document_type":"pdf","total_page_number":3,"valid_page_numer":3,"paragraph_number":18,"character_number":3280}}

错误码说明

错误码	描述
40101	x-ti-app-id 或 x-ti-secret-code 为空
40102	x-ti-app-id 或 x-ti-secret-code 无效，验证失败
40103	客户端IP不在白名单
40003	余额不足，请充值后再使用
40004	参数错误，请查看技术文档，检查传参
40007	机器人不存在或未发布
40008	机器人未开通，请至市场开通后重试
40301	文件类型不支持，接口会返回实际检测到的文件类型，如“当前文件类型为.gif”
40302	上传文件大小不符，文件大小不超过 10M
40303	文件类型不支持
40304	图片尺寸不符，图像宽高须介于 20 和 10000（像素）之间
40305	识别文件未上传
40306	QPS超过限制，收到此状态码时请勿重试，持续请求可能触发IP流控，如需扩容请联系商务
40400	无效的请求链接，请检查链接是否正确
30203	基础服务故障，请稍后重试
500	服务器内部错误