接入技术服务

合同抽取

API具体接入方式请参考合同抽取API接入指引

功能描述

用户可以通过此API,上传抽取文件,抽取文件支持的类型包括 png,jpeg,jpg,tif,tiff,ofd,pdf,doc,docx,wps,xls,xlsx,txt格式。创建抽取任务后可以得到一个能在浏览器访问的预览url,抽取任务id和获取抽取信息的接口url。

请求URL

https://doc-compare.intsig.com/api/contracts/v3/extraction/external/create

HTTP请求方法

HTTP POST

请求头说明(Request Header)

请在HTTP请求中添加以下自定义Header。

header 名
x-ti-app-id 请登录textin平台后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id
x-ti-secret-code 请登录textin平台后前往 “工作台-账号设置-开发者信息” 查看 x-ti-secret-code

请求体说明(Request Body)

Content-Type: application/json

字段名 类型 描述 参数可选
creator string 创建人, 会添加到导出的文档中 可选
config object 抽取解析文档配置,不传此参数,默认值为产品端全局配置 可选
key_info_list array 自配置字段对象数组 必要
filedata string 或 list 文件base64,不包含文件base64头信息, 如果传批量图片,这里可以传base64数组,且filename必需是.imgs后缀 必要
filename string 文件名,长度不得超过255个字符 必要

key_info_list 字段说明:

字段名 类型 描述 参数可选 选项
key_info string 关键信息名称, 长度限制20个字符 必要
paraphrase_names array 相似名字段,字符串数组, 可根据相似名精准抽取关键信息, 最多填写3个,每个释义名称长度限制20个字符 可选
field_type string 字段类型字段, 可选项有,时间:time, 金额:amount, 地址:address, 公司:company, 姓名:name, 描述(长文本):long_text_description, 其他:other, 印章:stamp, 分别对应产品段配置的字段类型 可选 “time”, “amount”, “address”, “company”, “name”, “long_text_description”, “other”, “stamp”
is_in_table boolean 位于表格字段, 抽取内容是否位于表格内,若不确定可不填写 可选 true, false
keywords array 关键字字段, 字符串数组, 可根据关键字信息,快速定位抽取信所在段落范围, 最多填写10个,且字符总长度不超过50 可选

config 字段说明:

字段名 类型 描述 参数可选 默认值 选项
use_pdf_parser string 使用pdf解析,传"false"则使用OCR识别文档 可选 “true” “true”, “false”
remove_watermark string 非电子档使用水印擦除引擎,需要GPU且需要部署水印擦出引擎,会增加抽取时间 可选 “false” “true”, “false”

JSON示例:

{"creator":"xxx","config":{"engine":"table","use_pdf_parser":"true","use_semantic_match":"true","remove_watermark":"false"},"filedata":"base64","filename":"文件.pdf","key_info_list":[{"key_info":"甲方","paraphrase_names":["甲方名称"],"field_type":"name","is_in_table":true,"keywords":["甲"]}]}

注意:图片以图片包形式发送,所以 filename的后缀必须为 .imgs

图片类型的JSON示例:

{"creator":"xxx","config":{"engine":"table","use_pdf_parser":"true","use_semantic_match":"true","remove_watermark":"false"},"filedata":["图片1base64","图片2base64","图片3base64"],"filename":"文件.imgs","key_info_list":[{"key_info":"甲方","paraphrase_names":["甲方名称"],"field_type":"name","is_in_table":true,"keywords":["甲"]}]}

响应体说明(Response Data)

Content-Type: application/json

字段名 类型 描述
code integer 错误码
msg string 错误信息
result object 特定接口的返回结果
+preview_url string 预览页面地址
+extracted_results_url string json格式结果地址
+task_id string 抽取任务id

JSON示例:

{
    "result": {
        "preview_url": "https://contracts.textin.com/textin_for_contracts/robot/keyinfo/extraction?task_id=a684556077a285a2ff456d1614fc8bf1",
        "task_id": "a684556077a285a2ff456d1614fc8bf1",
        "extracted_results_url": "https://doc-compare.intsig.com/doc_extraction/keyinfo/extracted_results?task_id=a684556077a285a2ff456d1614fc8bf1&format=json"
    },
    "code": 200,
    "msg": "success"
}

错误码说明

错误码 描述
200 创建成功
209 任务进行中
400 坏的请求
401 未授权
403 禁止访问
404 未找到资源
406 参数错误
500 服务器内部错误
40003 余额不足,请充值后再使用
40004 参数错误,请查看技术文档,检查传参
40007 机器人不存在或未发布
40008 机器人未开通,请至市场开通后重试
40101 x-ti-app-id 或 x-ti-secret-code 为空
40102 x-ti-app-id 或 x-ti-secret-code 无效,验证失败
40103 客户端IP不在白名单
40104 App has expired 应用已超过有效期
40105 Invalid IP source 无效的IP来源
40106 App does not match service 应用与service不匹配
40107 App has been overdrawn. Please use it after recharging. 应用额度已用完,请充值后使用
40109 QPS limit reached, request rejected 达到 qps 限制,请求拒绝
40202 Service not support 请求了不支持的服务
40203 API is not configured correctly. API配置不正确
人工咨询
人工咨询
技术交流群
技术交流群

联系我们