| 中文名称 | 英文标识符 |
|---|---|
| 文字段 | text |
| 标题 | title |
| 图 | figure |
| 图例 | figure_caption |
| 表 | table |
| 表例 | table_caption |
| 页眉 | header |
| 页脚 | footer |
| 脚注 | footnote |
| 侧边栏 | sider |
| 目录 | cate |
| 目录条目 | cate_item |
| 代码块 | code |
| 选项 | choice |
| 填空 | blank |
| 二维码 | qrcode |
| 印章 | stamp |
| 参考文献 | reference |
| 公式 | equation |
| 化学结构式 | cs |
| 化学方程 式 | cs_equation |
| 功能名称 | 参数字段 | 说明 |
|---|---|---|
| 文字跨页拼接 | enable_text_cross_page | 跨页文本合二为一,打通文本信息的跨页隔断。 |
| 表格跨页拼接 | enable_table_cross_page | 跨页表格合二为一,数据呈现一览无余。 |
| 标题层级识别 | enable_title_level_recognition | 智能识别标题等级,让文档结构一目了然。开启此功能可能会大幅延长解析耗时,请确认后再启用。 |
注意:以上功能均默认关闭,需在请求时显式传入参数启用。
extract_config 字段传入 JSON 字符串来启用特色功能(multipart/form-data):| 参数名 | 类型 | 说明 |
|---|---|---|
extract_config | string (JSON) | 特色功能配置,值为 JSON 字符串 |
extract_config JSON 结构:{
"enable_text_cross_page": true,
"enable_table_cross_page": true,
"enable_title_level_recognition": true
}任务提交 接口上传文件。服务器收到请求后,不会立即开始处理,而是将任务放入一个队列,并立即返回一个唯一的 task_id。task_id,通过轮询(即每隔几秒调用一次)结果查询 接口来获取任务的最新状态。当任务处理完成后,该接口会返回最终的解析结果。