Skip to content

提交智能抽取任务

从各类文件中将指定字段内容抽取出来

请求说明

请求地址https://openapi.wps.cn/v7/aidocs/extract/commit
请求方法POST
签名方式KSO-1
权限要求提取智能文档库数据(用户授权) kso.aidocs_extract.readwrite

请求头(Header)

Header 名称参数类型是否必填说明
Content-Typestring使用:application/json
X-Kso-DatestringRFC1123 格式的日期,例: Wed, 23 Jan 2013 06:43:08 GMT
X-Kso-AuthorizationstringKSO-1 签名值,详见《签名方法》
Authorizationstring授权凭证,格式为:Bearer {access_token}

请求参数(Body)

字段必填类型说明
file_idstring文件的 link_id
item_nameobject抽取配置(示例见:附:item_name 填写示例)
∟ typestring字段的类型
single:单值字段
group:多值字段
∟ extraobject字段的辅助信息
∟∟ parentstring描述字段的所属层级关系;
示例:假如抽取简历中的项目经历,该字段填写"项目经历"
∟∟ positionstring描述字段出现的位置或页码;
示例:在第一到三页范围内
∟ fieldsarray抽取项
∟∟ namestring抽取的字段名
∟∟ descstring对抽取的字段进行描述,利于大模型识别

请求示例

json
{
  "file_id": "link_id_123456",
  "item_name": {
    "type": "group",
    "extra": {
      "parent": "项目经历",
      "position": "第一到三页"
    },
    "fields": [
      {
        "name": "项目名称",
        "desc": "项目的名称或标题"
      },
      {
        "name": "项目时间",
        "desc": "项目开始和结束的时间"
      },
      {
        "name": "项目描述",
        "desc": "项目的主要内容和成果"
      }
    ]
  }
}

响应体

字段类型说明
codeint响应码
msgstring附加信息
dataobject返回数据
∟ task_idstring抽取任务 id,通过该 id 轮询结果

响应体示例

json
{
  "code": 0,
  "data": {
    "task_id": "27c28541-b322-4e33-bbe0-4ecb40ecf83a"
  },
  "msg": "success"
}

附:item_name 填写示例

1. 单值字段抽取示例(合同信息)

json
{
  "type": "single",
  "fields": [
    {
      "name": "合同编号",
      "desc": "合同的唯一标识编号"
    },
    {
      "name": "签约日期",
      "desc": "合同签署的日期"
    },
    {
      "name": "合同金额",
      "desc": "合同的总金额"
    },
    {
      "name": "甲方公司",
      "desc": "合同甲方的公司名称"
    },
    {
      "name": "乙方公司", 
      "desc": "合同乙方的公司名称"
    }
  ]
}

2. 多值字段抽取示例(简历项目经历)

json
{
  "type": "group",
  "extra": {
    "parent": "项目经历",
    "position": "第二到四页"
  },
  "fields": [
    {
      "name": "项目名称",
      "desc": "项目的名称"
    },
    {
      "name": "项目时间",
      "desc": "项目的起止时间"
    },
    {
      "name": "担任角色",
      "desc": "在项目中担任的角色或职位"
    },
    {
      "name": "项目描述",
      "desc": "项目的主要内容和成果"
    }
  ]
}

3. 发票信息抽取示例

json
{
  "type": "single",
  "fields": [
    {
      "name": "发票代码",
      "desc": "发票的代码"
    },
    {
      "name": "发票号码",
      "desc": "发票的号码"
    },
    {
      "name": "开票日期",
      "desc": "发票开具的日期"
    },
    {
      "name": "购买方名称",
      "desc": "购买方的公司名称"
    },
    {
      "name": "销售方名称",
      "desc": "销售方的公司名称"
    },
    {
      "name": "价税合计",
      "desc": "发票的总金额(包含税额)"
    }
  ]
}

注意事项

  1. file_id 表示文件的 link_id,可为上传接口返回的 link_id,或已有云文档文件的 link_id
  2. typesingle 时,表示每个字段在文档中只出现一次
  3. typegroup 时,表示字段组可能在文档中出现多次(如简历中的多个项目经历)
  4. extra 字段为可选项,用于提供额外的上下文信息,帮助提高抽取准确性
  5. 建议在 desc 字段中提供清晰的描述,有助于大模型更准确地识别和抽取信息