OpenClaw PDF工具

2026-04-30 29

OpenClaw 提供了专门用于处理 PDF 文档的工具 pdf,可对一个或多个 PDF 文件进行分析并输出文本内容。该工具支持灵活输入、多模型适配以及智能回退机制,能够满足多种文档处理需求。

一、工具能力概览

PDF 工具主要具备以下特点:

  • 支持分析单个或多个 PDF 文档
  • 每次调用最多处理 10 个 PDF
  • 根据模型提供商自动选择处理模式
  • 可输出文本内容及结构化元数据

在不同模型环境下,工具会自动选择最合适的执行方式,以确保分析效果。

二、可用性机制

PDF 工具是否启用,取决于系统是否能够解析可用的模型配置。其优先级如下:

  • 使用 agents.defaults.pdfModel
  • 回退到 agents.defaults.imageModel
  • 再回退到基于当前认证信息可用的默认模型

如果系统无法找到可用模型,则 PDF 工具不会被注册或暴露。

三、输入参数说明

PDF 工具支持以下输入字段:

  • pdf(string):单个 PDF 文件路径或 URL
  • pdfs(string[]):多个 PDF 文件路径或 URL(最多 10 个)
  • prompt(string):分析提示词(默认:Analyze this PDF document)
  • pages(string):页面范围(如 1-5 或 1,3,7-9)
  • model(string):指定模型(可选)
  • maxBytesMb(number):单个 PDF 文件大小上限

输入规则说明:

  • pdf 与 pdfs 会在处理前合并并去重
  • 必须提供至少一个 PDF,否则会报错
  • 页码从 1 开始,自动排序并限制在最大页数范围内
  • 默认大小限制为 10MB(或配置值)

四、支持的 PDF 引用方式

工具支持以下几种 PDF 来源:

  • 本地文件路径(支持 ~ 展开)
  • file:// URL
  • http:// 和 https:// URL

限制说明:

  • 不支持 ftp:// 等其他协议
  • 沙箱环境中禁止访问远程 URL
  • 启用工作区限制时,禁止访问外部路径

五、执行模式详解

1. 原生提供商模式

适用于 Anthropic 和 Google 模型。

特点:

  • 直接将 PDF 原始数据发送至模型处理
  • 处理效率更高

限制:

  • 不支持 pages 参数
  • 如果设置页码过滤,会直接报错

2. 提取回退模式

适用于非原生模型,是默认的兼容方案。

执行流程如下:

  • 从指定页面中提取文本(默认最多 20 页)
  • 如果文本少于 200 字符,则将页面渲染为图片
  • 将文本或图片连同提示词发送给模型处理

回退机制说明:

  • 页面图像总像素限制为 400 万
  • 如果模型不支持图像且无法提取文本,则会报错
  • 依赖 pdfjs-dist 和 @napi-rs/canvas

六、配置示例

{
  "agents": {
    "defaults": {
      "pdfModel": {
        "primary": "anthropic/claude-opus-4-6",
        "fallbacks": ["openai/gpt-5-mini"]
      },
      "pdfMaxBytesMb": 10,
      "pdfMaxPages": 20
    }
  }
}

该配置定义了默认模型、文件大小限制以及最大处理页数。

七、输出结果说明

PDF 工具返回两类数据:

  • 文本内容:位于 content[0].text
  • 结构化信息:位于 details 字段

常见字段包括:

  • model:实际使用的模型
  • native:是否使用原生模式
  • attempts:回退尝试次数

路径信息:

  • 单个 PDF:details.pdf
  • 多个 PDF:details.pdfs[]

八、错误处理机制

常见错误情况如下:

  • 未提供 PDF:返回 “pdf required” 错误
  • PDF 数量超过限制:返回 too_many_pdfs
  • 不支持的引用方式:返回 unsupported_pdf_reference
  • 原生模式使用 pages:直接报错

九、使用示例

单个 PDF 分析

{
  "pdf": "/tmp/report.pdf",
  "prompt": "Summarize this report in 5 bullets"
}

多个 PDF 对比

{
  "pdfs": ["/tmp/q1.pdf", "/tmp/q2.pdf"],
  "prompt": "Compare risks and timeline changes across both documents"
}

指定页面分析(回退模式)

{
  "pdf": "https://example.com/report.pdf",
  "pages": "1-3,7",
  "model": "openai/gpt-5-mini",
  "prompt": "Extract only customer-impacting incidents"
}

十、总结

OpenClaw 的 PDF 工具通过原生处理 + 回退机制,实现了对不同模型环境的兼容支持。

  • 原生模式:效率高,但功能限制较多
  • 回退模式:适配性强,支持更多场景

通过合理配置模型与参数,用户可以高效完成 PDF 文档的提取、分析与对比任务。

  • 广告合作

  • QQ群号:4114653

温馨提示:
1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。 2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。