文档内容抽取
文档内容抽取
请求说明
请求地址 | https://openapi.wps.cn/v7/drives/{drive_id}/files/{file_id}/content |
---|---|
请求方法 | GET |
签名方式 | KSO-1 |
权限要求 | 查询和管理文件(应用授权) kso.file.readwrite 查询文件(应用授权) kso.file.read 查询和管理文件(用户授权) kso.file.readwrite 查询文件(用户授权) kso.file.read |
请求头(Header)
Header 名称 | 参数类型 | 是否必填 | 说明 |
---|---|---|---|
Content-Type | string | 是 | 使用:application/json |
X-Kso-Date | string | 是 | RFC1123 格式的日期,例: Wed, 23 Jan 2013 06:43:08 GMT |
X-Kso-Authorization | string | 是 | KSO-1 签名值,详见《签名方法》 |
Authorization | string | 是 | 授权凭证,格式为:Bearer {access_token} |
路径参数(Path)
名称 | 参数类型 | 说明 |
---|---|---|
drive_id | string | 驱动盘 id |
file_id | string | 文件 id |
查询参数(Query)
名称 | 参数类型 | 是否必填 | 说明 |
---|---|---|---|
format | string | 否 | 文档内容目标格式 |
include_elements | array[string] | 否 | 指定抽取元素。默认元素为 para ,且一定会被导出;其余附加元素根据请求参数选择性导出para :段落;table :表格;textbox :文本框;component :部件(图片、音视频、脑图、流程图等);all |
请求地址示例
[GET] https://openapi.wps.cn/v7/drives/{drive_id}/files/{file_id}/content?format={string}&include_elements={string_1}&include_elements={string_2}
响应体
名称 | 参数类型 | 说明 |
---|---|---|
code | integer | 响应代码。非 0 表示失败,参照《状态码说明》 |
msg | string | 响应信息 |
data | object | 响应数据 |
more | object | 更多的错误信息 |
doc | object | 文字类的结构化数据,源格式为 otl 、pdf 和 docx 并且目标格式为 kdc 时适用 |
∟ comments | array[object] | 批注,详细参数见下文 |
∟ medias | array[object] | 媒体文件,详细参数见下文 |
∟ prop | object | 文档的属性和元数据,详细参数见下文 |
∟ tree | object | 文档数据树状结构表示,以大纲级别为层级,详细参数见下文 |
dst_format | string | 目标格式 kdc :结构化表示;plain :纯文本;markdown :markdown |
markdown | string | markdown 内容数据,目标格式为 markdown 时适用 |
plain | string | 纯文本内容数据,目标格式为 plain 时适用 |
src_format | string | 源格式 otl :智能文档;pdf :pdf 文档;docx :后缀为 docx 的 word 文档 |
version | string | 版本号,初始版本 1.0.0 |
响应体示例
json
{
"code": 0,
"msg": "string",
"data": {
"doc": {
// 批注,详细参数见下文
"comments": [],
// 媒体文件,详细参数见下文
"medias": [],
// 文档的属性和元数据,详细参数见下文
"prop": {},
// 文档数据树状结构表示,以大纲级别为层级,详细参数见下文
"tree": {}
},
"dst_format": "string",
"markdown": "string",
"plain": "string",
"src_format": "string",
"version": "string"
}
}
接口返回的
data / doc
中的数据如下:
名称 | 参数类型 | 说明 |
---|---|---|
comments | array[object] | 批注 |
∟ blocks | array[object] | 批注数据 |
∟ ∟ id | string | 块 id |
∟ ∟ index | integer | 当前块的索引 |
∟ ∟ page_index | integer | 当前块所在的页索引,从 0 开始 |
∟ ∟ rotate | number | 当前块的旋转角度 |
∟ ∟ type | string | 块类型枚举 para :段落;table :表格;textbox :文本框;component :部件(图片、音视频、脑图、流程图等) |
∟ ∟ para | object | 块类型为 para 时适用 |
∟ ∟ ∟ prop | object | 段属性 |
∟ ∟ ∟ ∟ alignment | string[enum] | 段落对齐方式 left :左对齐;center :居中对齐;right :右对齐;justify :两端对齐;distribute :分散对齐 |
∟ ∟ ∟ ∟ def_run_prop | object | 默认句属性 |
∟ ∟ ∟ ∟ list_string | string | 段落上的项目编号字符串 |
∟ ∟ ∟ ∟ outline_level | integer | 大纲级别 1-9 表示级别 1-级别 9,10 表示正文,同段落属性中的大纲级别 |
∟ ∟ ∟ runs | array[object] | 句列表 |
∟ ∟ ∟ ∟ id | string | 句 id |
∟ ∟ ∟ ∟ prop | object | 句属性 |
∟ ∟ ∟ ∟ text | string | 文本内容 |
∟ ∟ table | object | 块类型为 table 时适用 |
∟ ∟ ∟ rows | array[object] | 表格行 |
∟ ∟ ∟ cell | array[object] | 表格单元格 |
∟ ∟ ∟ ∟ blocks | object | 块 |
∟ ∟ ∟ ∟ col_span | integer | 水平方向(向右)合并的单元格数量 |
∟ ∟ ∟ ∟ id | string | 单元格 id |
∟ ∟ ∟ ∟ row_span | integer | 垂直方向(向下)合并的单元格数量 |
∟ ∟ textbox | object | 块类型为 textbox 时适用 |
∟ ∟ ∟ blocks | array[object] | 文本框的内的块内容 |
∟ ∟ component | object | 块类型为 component 时适用 |
∟ ∟ ∟ media_id | string | 媒体 id |
∟ ∟ ∟ type | string | component 类型枚举image :图片;audio :音频;video :视频 |
∟ ∟ bounding_box | object | 当前块的外接矩形框的几何坐标 |
∟ ∟ ∟ x1 | integer | left-top 点 x 坐标 |
∟ ∟ ∟ x2 | integer | right-bottom 点 x 坐标 |
∟ ∟ ∟ y1 | integer | left-top 点 y 坐标 |
∟ ∟ ∟ y2 | integer | right-bottom 点 y 坐标 |
∟ ∟ tags | array[object] | tag 列表 |
∟ ∟ ∟ name | string | 名称 |
∟ ∟ ∟ value | string | 值 |
∟ references | array[object] | 参考 |
∟ ∟ id | string | 对应类型的 id |
∟ ∟ type | string[enum] | id 类型run :句;block :块;cell :表格单元格 |
medias | array[object] | 媒体文件 |
∟ data | string | 响应数据 |
∟ id | string | 媒体文件 id |
∟ url | string | 媒体数据,url 链接形式,数据存放在外部,data 和 url 两者选一 |
prop | object | 文档的属性和元数据 |
∟ page_count | integer | 文档总页数 |
∟ page_props | array[object] | 文档所有页的基本信息 |
∟ ∟ dpi | integer | 图像场景中,KDC 结果中坐标、页大小、字号等物理单位到像素单位的 dpi |
∟ ∟ offset_angle | number | 扫描件的旋转小角度 |
∟ ∟ rotate | integer | 页面与内容的旋转角度枚举,90 度的正整数倍 |
∟ ∟ size | object | 页大小,单位磅 |
∟ ∟ ∟ height | integer | 高度 |
∟ ∟ ∟ width | integer | 宽度 |
tree | object | 文档数据树状结构表示,以大纲级别为层级 |
∟ blocks | array[object] | 块,存储具体内容 |
∟ ∟ bounding_box | object | 当前块的外接矩形框的几何坐标 |
∟ ∟ component | object | 块类型为 component 时适用 |
∟ ∟ id | string | 块 id |
∟ ∟ index | integer | 当前块的索引 |
∟ ∟ page_index | integer | 当前块所在的页索引,从 0 开始 |
∟ ∟ para | object | 块类型为 para 时适用 |
∟ ∟ rotate | number | 当前块的旋转角度 |
∟ ∟ table | object | 块类型为 table 时适用 |
∟ ∟ tags | array[object] | tag 列表 |
∟ ∟ textbox | object | 块类型为 textbox 时适用 |
∟ ∟ type | string | 块类型枚举 para :段落;table :表格;textbox :文本框;component :部件(图片、音视频、脑图、流程图等) |
∟ children | array[object] | 子节点 |
∟ ∟ blocks | array[object] | 块,存储具体内容 |
∟ ∟ children | array[object] | 子节点 |
∟ ∟ outline_level | integer | 大纲级别 1-9 表示级别 1-级别 9,10 表示正文,同段落属性中的大纲级别 |
∟ outline_level | integer | 大纲级别 1-9 表示级别 1-级别 9,10 表示正文,同段落属性中的大纲级别 |
接口返回的
data / doc
中的数据示例如下:
json
{
"doc": {
"comments": [
{
"blocks": [
{
"id": "string",
"index": 0,
"page_index": 0,
"rotate": 0,
"type": "string",
"para": {
"prop": {
"alignment": "string",
"def_run_props": {},
"list_string": "string",
"outline_level": 0
}
},
"table": {
"row": [
{
"cells": [
{
"blocks": {},
"col_span": 0,
"id": "string",
"row_span": 0
}
]
}
]
},
"textbox": [
{
"blocks": {}
}
],
"component": {
"media_id": "string",
"type": "string"
},
"bounding_box": {
"x1": 0,
"x2": 0,
"y1": 0,
"y2": 0
},
"tags": [
{
"name": "string",
"value": "string"
}
]
}
],
"references": [
{
"id": "string",
"type": "string[enum]"
}
]
}
],
"medias": [
{
"data": "string",
"id": "string",
"url": "string"
}
],
"prop": {
"page_count": 0,
"page_props": [
{
"dpi": 0,
"offset_angle": 0,
"rotate": 0,
"size": {
"height": 0,
"width": 0
}
}
]
},
"tree": {
"blocks": [
{
"bounding_box": "object",
"component": "object",
"id": "string",
"index": 0,
"page_index": 0,
"para": "object",
"rotate": 0,
"table": "object",
"tags": [],
"textbox": "object",
"type": "string"
}
],
"children": [
{
"blocks": [],
"children": [],
"outline_level": 0
}
],
"outline_level": 0
}
}
}