提交智能抽取任务
从各类文件中将指定字段内容抽取出来
请求说明
| 请求地址 | https://openapi.wps.cn/v7/aidocs/extract/commit |
|---|---|
| 请求方法 | POST |
| 签名方式 | KSO-1 |
| 权限要求 | 提取智能文档库数据(用户授权) kso.aidocs_extract.readwrite |
请求头(Header)
| Header 名称 | 参数类型 | 是否必填 | 说明 |
|---|---|---|---|
| Content-Type | string | 是 | 使用:application/json |
| X-Kso-Date | string | 是 | RFC1123 格式的日期,例: Wed, 23 Jan 2013 06:43:08 GMT |
| X-Kso-Authorization | string | 是 | KSO-1 签名值,详见《签名方法》 |
| Authorization | string | 是 | 授权凭证,格式为:Bearer {access_token} |
请求参数(Body)
| 字段 | 必填 | 类型 | 说明 |
|---|---|---|---|
| file_id | 是 | string | 文件的 link_id |
| item_name | 是 | object | 抽取配置(示例见:附:item_name 填写示例) |
| ∟ type | 是 | string | 字段的类型 • single:单值字段• group:多值字段 |
| ∟ extra | 否 | object | 字段的辅助信息 |
| ∟∟ parent | 否 | string | 描述字段的所属层级关系; 示例:假如抽取简历中的项目经历,该字段填写"项目经历" |
| ∟∟ position | 否 | string | 描述字段出现的位置或页码; 示例:在第一到三页范围内 |
| ∟ fields | 是 | array | 抽取项 |
| ∟∟ name | 是 | string | 抽取的字段名 |
| ∟∟ desc | 否 | string | 对抽取的字段进行描述,利于大模型识别 |
请求示例
json
{
"file_id": "link_id_123456",
"item_name": {
"type": "group",
"extra": {
"parent": "项目经历",
"position": "第一到三页"
},
"fields": [
{
"name": "项目名称",
"desc": "项目的名称或标题"
},
{
"name": "项目时间",
"desc": "项目开始和结束的时间"
},
{
"name": "项目描述",
"desc": "项目的主要内容和成果"
}
]
}
}响应体
| 字段 | 类型 | 说明 |
|---|---|---|
| code | int | 响应码 |
| msg | string | 附加信息 |
| data | object | 返回数据 |
| ∟ task_id | string | 抽取任务 id,通过该 id 轮询结果 |
响应体示例
json
{
"code": 0,
"data": {
"task_id": "27c28541-b322-4e33-bbe0-4ecb40ecf83a"
},
"msg": "success"
}附:item_name 填写示例
1. 单值字段抽取示例(合同信息)
json
{
"type": "single",
"fields": [
{
"name": "合同编号",
"desc": "合同的唯一标识编号"
},
{
"name": "签约日期",
"desc": "合同签署的日期"
},
{
"name": "合同金额",
"desc": "合同的总金额"
},
{
"name": "甲方公司",
"desc": "合同甲方的公司名称"
},
{
"name": "乙方公司",
"desc": "合同乙方的公司名称"
}
]
}2. 多值字段抽取示例(简历项目经历)
json
{
"type": "group",
"extra": {
"parent": "项目经历",
"position": "第二到四页"
},
"fields": [
{
"name": "项目名称",
"desc": "项目的名称"
},
{
"name": "项目时间",
"desc": "项目的起止时间"
},
{
"name": "担任角色",
"desc": "在项目中担任的角色或职位"
},
{
"name": "项目描述",
"desc": "项目的主要内容和成果"
}
]
}3. 发票信息抽取示例
json
{
"type": "single",
"fields": [
{
"name": "发票代码",
"desc": "发票的代码"
},
{
"name": "发票号码",
"desc": "发票的号码"
},
{
"name": "开票日期",
"desc": "发票开具的日期"
},
{
"name": "购买方名称",
"desc": "购买方的公司名称"
},
{
"name": "销售方名称",
"desc": "销售方的公司名称"
},
{
"name": "价税合计",
"desc": "发票的总金额(包含税额)"
}
]
}注意事项
file_id表示文件的link_id,可为上传接口返回的link_id,或已有云文档文件的link_idtype为single时,表示每个字段在文档中只出现一次type为group时,表示字段组可能在文档中出现多次(如简历中的多个项目经历)extra字段为可选项,用于提供额外的上下文信息,帮助提高抽取准确性- 建议在
desc字段中提供清晰的描述,有助于大模型更准确地识别和抽取信息