提交智能抽取任务
从各类文件中将指定字段内容抽取出来
请求说明
请求地址 | https://openapi.wps.cn/v7/aidocs/extract/commit |
---|---|
请求方法 | POST |
签名方式 | KSO-1 |
权限要求 | 提取智能文档库数据(用户授权) kso.aidocs_extract.readwrite |
请求头(Header)
Header 名称 | 参数类型 | 是否必填 | 说明 |
---|---|---|---|
Content-Type | string | 是 | 使用:application/json |
X-Kso-Date | string | 是 | RFC1123 格式的日期,例: Wed, 23 Jan 2013 06:43:08 GMT |
X-Kso-Authorization | string | 是 | KSO-1 签名值,详见《签名方法》 |
Authorization | string | 是 | 授权凭证,格式为:Bearer {access_token} |
请求参数(Body)
字段 | 必填 | 类型 | 说明 |
---|---|---|---|
file_id | 是 | string | 文件的 link_id |
item_name | 是 | object | 抽取配置(示例见:附:item_name 填写示例) |
∟ type | 是 | string | 字段的类型 • single :单值字段• group :多值字段 |
∟ extra | 否 | object | 字段的辅助信息 |
∟∟ parent | 否 | string | 描述字段的所属层级关系; 示例:假如抽取简历中的项目经历,该字段填写"项目经历" |
∟∟ position | 否 | string | 描述字段出现的位置或页码; 示例:在第一到三页范围内 |
∟ fields | 是 | array | 抽取项 |
∟∟ name | 是 | string | 抽取的字段名 |
∟∟ desc | 否 | string | 对抽取的字段进行描述,利于大模型识别 |
请求示例
json
{
"file_id": "link_id_123456",
"item_name": {
"type": "group",
"extra": {
"parent": "项目经历",
"position": "第一到三页"
},
"fields": [
{
"name": "项目名称",
"desc": "项目的名称或标题"
},
{
"name": "项目时间",
"desc": "项目开始和结束的时间"
},
{
"name": "项目描述",
"desc": "项目的主要内容和成果"
}
]
}
}
响应体
字段 | 类型 | 说明 |
---|---|---|
code | int | 响应码 |
msg | string | 附加信息 |
data | object | 返回数据 |
∟ task_id | string | 抽取任务 id,通过该 id 轮询结果 |
响应体示例
json
{
"code": 0,
"data": {
"task_id": "27c28541-b322-4e33-bbe0-4ecb40ecf83a"
},
"msg": "success"
}
附:item_name 填写示例
1. 单值字段抽取示例(合同信息)
json
{
"type": "single",
"fields": [
{
"name": "合同编号",
"desc": "合同的唯一标识编号"
},
{
"name": "签约日期",
"desc": "合同签署的日期"
},
{
"name": "合同金额",
"desc": "合同的总金额"
},
{
"name": "甲方公司",
"desc": "合同甲方的公司名称"
},
{
"name": "乙方公司",
"desc": "合同乙方的公司名称"
}
]
}
2. 多值字段抽取示例(简历项目经历)
json
{
"type": "group",
"extra": {
"parent": "项目经历",
"position": "第二到四页"
},
"fields": [
{
"name": "项目名称",
"desc": "项目的名称"
},
{
"name": "项目时间",
"desc": "项目的起止时间"
},
{
"name": "担任角色",
"desc": "在项目中担任的角色或职位"
},
{
"name": "项目描述",
"desc": "项目的主要内容和成果"
}
]
}
3. 发票信息抽取示例
json
{
"type": "single",
"fields": [
{
"name": "发票代码",
"desc": "发票的代码"
},
{
"name": "发票号码",
"desc": "发票的号码"
},
{
"name": "开票日期",
"desc": "发票开具的日期"
},
{
"name": "购买方名称",
"desc": "购买方的公司名称"
},
{
"name": "销售方名称",
"desc": "销售方的公司名称"
},
{
"name": "价税合计",
"desc": "发票的总金额(包含税额)"
}
]
}
注意事项
file_id
表示文件的link_id
,可为上传接口返回的link_id
,或已有云文档文件的link_id
type
为single
时,表示每个字段在文档中只出现一次type
为group
时,表示字段组可能在文档中出现多次(如简历中的多个项目经历)extra
字段为可选项,用于提供额外的上下文信息,帮助提高抽取准确性- 建议在
desc
字段中提供清晰的描述,有助于大模型更准确地识别和抽取信息