TextIn - API中心 - 通用文档解析

文档中心

查看文档

示例代码

API调试

功能描述

pdf转markdown

上传图片/pdf，进行版面检测，文字识别，表格识别，版面分析等操作，并生成markdown文档

请求URL

https://api.textin.com/ai/service/v1/pdf_to_markdown

HTTP请求方法（Method）

HTTP POST

请求头说明（Request Headers）

请在HTTP请求中添加以下自定义标头（Header）。

header 名	值
x-ti-app-id	请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id
x-ti-secret-code	请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-secret-code

URL参数（Parameters）

URL参数指以 {参数名}={参数值} 形式拼接到 URL 上的键值对。它以 ? 开头，不同参数之间使用 & 连接。形如 ?p1=v1&p2=v2

参数名	数据类型	是否必填	允许的值	描述
pdf_pwd	string	否	见描述	当pdf为加密文档时，需要提供密码。备注：对前端封装该接口时，需要自行对密码进行安全防护。
dpi	integer	否	见描述	pdf文档的坐标基准,默认72dpi,推荐72或者144dpi
page_start	integer	否	见描述	当上传的是pdf时，page_start 表示从第几页开始转
page_count	integer	否	见描述	当上传的是pdf时，page_count 表示要进行转换的pdf页数。总页数不得超过1000页，默认为1000页。
apply_document_tree	integer	否	见描述	是否生成标题，默认为1，生成标题 0 不生成 1 生成标题
markdown_details	integer	否	见描述	是否生成markdown details，默认为1，生成markdown details 0 不生成 1 生成
table_flavor	string	否	见描述	markdown里的表格格式，默认为html，按html语法输出表格 md 按md语法输出表格 html 按html语法输出表格
get_image	string	否	见描述	获取markdown里的图片，默认为none，不返回任何图像 none 不返回任何图像 page 返回每一页的整页图像 objects 返回页面内的图像对象 both 返回整页图像和图像对象
parse_mode	string	否	见描述	是否强制使用OCR识别，默认为scan，仅按文字识别方式处理 auto 综合识别和解析方案 scan 仅按文字识别方式处理

请求体说明（Request Body）

Content-Type: application/octet-stream

支持的文件格式：png, jpg, jpeg, pdf, bmp, tiff

请注意，请求体的数据格式为文件的二进制流，非 FormData 或其他格式。文件大小不超过 500M，图像宽高须介于 20 和 10000（像素）之间。

响应体说明（Response）

Content-Type: application/json

JSON结构说明如下：

字段名	类型	描述
code	integer	错误码，详见“错误码说明”
message	string	错误信息
result	object
+ detail	array	markdown详细信息
++ page_id	integer	当前段落所在页码
++ paragraph_id	integer	当前段落id
++ outline_level	integer	标题级别: (最多支持5级标题) -1.正文 0.一级标题 1.二级标题 ...
++ text	string	文本
++ type	string	类型, paragraph（段落类型，包括正文、标题、公式等文字信息）、image（图片类型）、table（表格类型）
++ image_url	string	当get_image = objects 时，返回图片的公共连接
++ content	integer	内容类型 0 正文(段落、图片、表格) 1 非正文(页眉、页脚、侧边栏)
++ position	array	以长度为8的整型数组表示四边形，8个数两两一组为一个点的横纵坐标，分别是左上，右上，左下，右下。当输入是PDF时, 此坐标是基于72dpi的;当输入是图片时，此坐标是原图里的坐标。单位：像素
+ markdown	string	markdown 正文字符串
version	string	doc_restore 引擎版本号
duration	integer	引擎耗时（毫秒）
metrics	array	每一页的信息
+ durations	number	当前页总耗时
+ status	string	当前页状态
+ page_id	number	当前页码
+ image_id	string	当前页图片id （下载方式：https://api.textin.com/ocr_image/download?image_id=xxx ,需要在headers里添加appid和key）例如使用curl下载: curl 'https://api.textin.com/ocr_image/download?image_id=xxx' --header 'x-ti-app-id: c81f***********************e9ff' --header 'x-ti-secret-code: 5508*********************1c17'

JSON结构示例

{
  "code": 200,
  "message": "success",
  "result": {
    "markdown": "",
    "detail": [
      {
        "page_id": -78695678,
        "content": 0,
        "position": [
          52913710
        ],
        "type": "paragraph",
        "image_url": "",
        "outline_level": -1,
        "text": "",
        "paragraph_id": 31113054
      }
    ]
  },
  "metrics": [
    {
      "durations": -21282240.41976683,
      "page_id": -83232246.75176224,
      "image_id": "",
      "status": ""
    }
  ],
  "duration": -73891433,
  "version": ""
}

错误码说明

错误码	描述
40101	x-ti-app-id 或 x-ti-secret-code 为空
40102	x-ti-app-id 或 x-ti-secret-code 无效，验证失败
40103	客户端IP不在白名单
40003	余额不足，请充值后再使用
40004	参数错误，请查看技术文档，检查传参
40007	机器人不存在或未发布
40008	机器人未开通，请至市场开通后重试
40301	图片类型不支持
40302	上传文件大小不符，文件大小不超过 500M
40303	文件类型不支持
40304	图片尺寸不符，图像宽高须介于 20 和 10000（像素）之间
40305	识别文件未上传
40422	文件损坏（The file is corrupted.）
40423	PDF密码错误（Password required or incorrect password.）
40424	页数设置超出文件范围（Page number out of range.）
40425	文件格式不支持（The input file format is not supported.）
50207	部分页面解析失败（Partial failed）
30203	基础服务故障，请稍后重试
500	服务器内部错误