通用文档解析预览版
功能描述
通用文档解析
| 重要特性 | 详情描述 | 
|---|---|
| 适用场景 | 任意文档文件数字化 | 
| 图像文件 | 支持各类常见图片格式,包括JPG/PNG/BMP/WEBP等 | 
| 文档文件 | 支持各类常见的文档文件格式,包括PDF/ODF,混合支持电子档文字内容和扫描档文字内容 | 
| 办公文件 | 支持各类常见的办公文档文件格式,包括docx/xlsx/pptx以及同类的类Office文档文件 | 
| 标记语言 | 支持返回Markdown标记语言,可以通过URL参数精细控制使用不同的Markdown语法细节,如表格语法和标题语法等 | 
| 版面分析 | 通过深度学习建模物理版面分析和逻辑版面分析,让图片或PDF等非结构化文档文件也能构成有序文档,复杂排版下能够有正确的段落输出 | 
| 表格分析 | 通过深度学习建模表格分析,让图片或PDF等非结构化文档文件能够正确输出任意表格结构的文字内容 | 
| 公式识别 | 通过深度学习建模数学公式,支持图片或PDF等非结构化文档文件能够把公式识别出来并以LaTex格式输出 | 
| 语言种类 | 默认支持50+主流语言,包括简体和繁体中文,英语法语德语等拉丁语言,日语韩语等亚洲语言,俄语等西里尔语言,以及更多同类字符集的映射语言 | 
请求URL
https://api.textin.com/ai/service/v1/x_to_markdown
HTTP请求方法(Method)
HTTP POST
请求头说明(Request Headers)
请在HTTP请求中添加以下自定义标头(Header)。
| header 名 | 值 | 
|---|---|
| x-ti-app-id | 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id | 
| x-ti-secret-code | 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-secret-code | 
URL参数(Parameters)
URL参数指以{参数名}={参数值} 形式拼接到 URL 上的键值对。它以?开头,不同参数之间使用&连接。形如?p1=v1&p2=v2
| 参数名 | 数据类型 | 是否必填 | 允许的值 | 描述 | 
|---|---|---|---|---|
| page_start | integer | 否 | 见描述 | 
                     (仅用于PDF/ODF)表示从第几页开始进行解析。  | 
            
| page_count | integer | 否 | 见描述 | 
                     (仅用于PDF/ODF)表示要进行解析的PDF页数。若不指定,最大转换前24页。  | 
            
| pdf_pwd | string | 否 | 见描述 | 
                     (仅用于PDF/ODF)当文件为加密文档时,需要提供密码。备注:对前端封装该接口时,需要自行对密码进行安全防护。  | 
            
| pdf_dpi | integer | 否 | 见描述 | 
                     (仅用于PDF/ODF)PDF文档的坐标基准,默认72dpi,推荐使用72dpi或者144dpi  | 
            
| pdf_page_render | string | 否 | 见描述 | 
                     (仅用于PDF/ODF)是否把PDF渲染成图片并保存。 
  | 
            
| pdf_parse_mode | string | 否 | 见描述 | 
                     (仅用于PDF/ODF)是否强制使用OCR识别的方式进行文档解析。 
  | 
            
| char_detail | integer | 否 | 见描述 | 
                     解析级别, 
  | 
            
| output_word | integer | 否 | 见描述 | 
                    
  | 
            
| md_format | string | 否 | 见描述 | 
                     表示使用哪一套markdown语法标准是否生成markdown detials 
  | 
            
| md_title | integer | 否 | 见描述 | 
                     是否生成标题 
  | 
            
| md_detail | integer | 否 | 见描述 | 
                     是否输出页面级别和段落级别的细节内容 
  | 
            
| md_table_flavor | string | 否 | 见描述 | 
                     markdown里的表格格式 
  | 
            
| md_image | string | 否 | 见描述 | 
                     获取markdown里的图片 
  | 
            
请求体说明(Request Body)
Content-Type: multipart/form-data
支持的文件格式:png, jpg, jpeg, pdf, bmp, tiff, docx, doc
响应体说明(Response)
Content-Type: application/json
JSON结构说明如下:
说明:所有接口响应中均包含字段 x_request_id(string类型),作为请求的唯一标识。
| 字段名 | 类型 | 描述 | 
|---|---|---|
| code | integer | 错误码,详见“错误码说明” | 
| message | string | 
                    
                     错误信息  | 
            
| version | string | 
                    
                     文档解析引擎版本号  | 
            
| duration | integer | 
                    
                     文档解析引擎耗时(毫秒)  | 
            
| result | object | |
| + src_page_count | integer | 
                    
                     当输入Pdf, Doc, Docx时,返回文档的总页数(并非pages的大小)  | 
            
| + markdown | string | 
                    
                     markdown正文字符串  | 
            
| + pages | array | 
                    
                     文档按照页为单位展开时,存储每一页的详情和状态(适用于PDF/ODF)  | 
            
| ++ status | string | 
                    
                     表示当前页的引擎输出状态,或者error_message  | 
            
| ++ page_id | number | 
                    
                     当前页码(若为流式文件,页码置为0)  | 
            
| ++ durations | number | 
                    
                     当前页总耗时  | 
            
| ++ image_id | string | 
                    
                     (仅用于PDF/ODF)当URL参数pdf_page_render=oss,本条字段存储图像上传对象存储后获得的图像ID。
下载方式:https://api.textin.com/ocr_image/download?image_id=xxx ,需要在headers里添加appid和key)   | 
            
| ++ width | integer | 
                    
                     文档页宽度  | 
            
| ++ height | integer | 
                    
                     文档页高度  | 
            
| ++ angle | integer | 
                    
                     图像(中文字)的角度(当输入为图像时,默认为0,可选值0,90,180,270.  | 
            
| ++ num | integer | 
                    
                     文档页吗  | 
            
| ++ image | object | 
                    
                     文档页图像数据  | 
            
| +++ base64 | string | 
                    
                     图像文件(jpg,png)的base64字符串  | 
            
| +++ region | array | 
                    
                     图像在页图像中的区域(四边形4个点坐标)  | 
            
| +++ path | string | 
                    
                     图像文件路径(如在zip包中的路径)  | 
            
| ++ readable | array | 
                    
                     只有文字的 段落表格数据  | 
            
| ++ content | array | 
                    
                     基础数据:文字行,图像等  | 
            
| ++ structured | array | 
                    
                     结构化数据  | 
            
| + paragraphs | array | 
                    
                     markdown详细信息  | 
            
| ++ page_id | integer | 
                    
                     当前段落所在页码(仅用于PDF/ODF,否则常置为0)  | 
            
| ++ paragraph_id | integer | 
                    
                     当前段落序号  | 
            
| ++ outline_level | integer | 
                    
                     当前段落的标题级别: (最多支持5级标题) 
  | 
            
| ++ text | string | 
                    
                     文本  | 
            
| ++ type | string | 
                    
                     表示段落类型 
  | 
            
| ++ image_url | string | 
                    
                     当类型为image且md_image=url时,本字段存储图片的URL  | 
            
| ++ content | integer | 
                    
                     段落内容是否属于正文内容  | 
            
| ++ position | array | 
                    
                     (仅用于Image/PDF/ODF)表示段落所处的图像坐标或者PDF页图像坐标  | 
            
| metrics | object | 
                    
                     记录本次文档解析相关的重要衡量单位  | 
            
| + document_type | string | 
                    
                     记录文档类型,若引擎判断文档类型非法,则无法进行正确的解析过程。  | 
            
| + total_page_number | integer | 
                    
                     记录本次解析文档的应有的总页数(适用于PDF/ODF)。  | 
            
| + valid_page_numer | integer | 
                    
                     记录本次解析文档的成功页数(适用于PDF/ODF)。  | 
            
| + paragraph_number | integer | 
                    
                     记录本次解析文档的段落数,适用于所有文件类型。  | 
            
| + character_number | integer | 
                    
                     记录本次解析文档的字符数,适用于所有文件类型。  | 
            
JSON结构示例
错误码说明
| 错误码 | 描述 | 
|---|---|
| 40101 | x-ti-app-id 或 x-ti-secret-code 为空 | 
| 40102 | x-ti-app-id 或 x-ti-secret-code 无效,验证失败 | 
| 40103 | 客户端IP不在白名单 | 
| 40003 | 余额不足,请充值后再使用 | 
| 40004 | 参数错误,请查看技术文档,检查传参 | 
| 40007 | 机器人不存在或未发布 | 
| 40008 | 机器人未开通,请至市场开通后重试 | 
| 40301 | 文件类型不支持,接口会返回实际检测到的文件类型,如“当前文件类型为.gif” | 
| 40302 | 上传文件大小不符,文件大小不超过 10M | 
| 40303 | 文件类型不支持 | 
| 40304 | 图片尺寸不符,图像宽高须介于 20 和 10000(像素)之间 | 
| 40305 | 识别文件未上传 | 
| 40306 | QPS超过限制,收到此状态码时请勿重试,持续请求可能触发IP流控,如需扩容请联系商务 | 
| 40400 | 无效的请求链接,请检查链接是否正确 | 
| 30203 | 基础服务故障,请稍后重试 | 
| 500 | 服务器内部错误 |