Large Model Visual Question Answering Skill | 大模型视觉问答技能 OpenClaw Skill

Conducts open-ended Q&A on image content based on computer vision and large language models, supporting any questions to receive natural language responses....

v1.0.0 Recently Updated Updated 2 days ago

Installation

clawhub install visual-qa-analysis

Requires npm i -g clawhub

View on ClawHub Download .zip

Downloads

Stars

current installs

0 all-time

Versions

EU-Hosted Inference API

Power your OpenClaw skills with
the best open-source models.

Drop-in OpenAI-compatible API. No data leaves Europe.

Explore Inference API

GLM

GLM 5

$1.00 / $3.20

per M tokens

Kimi

Kimi K2.5

$0.60 / $2.80

per M tokens

MiniMax

MiniMax M2.5

$0.30 / $1.20

per M tokens

Qwen

Qwen3.5 122B

$0.40 / $3.00

per M tokens

Large Model Visual Question Answering Skill | 大模型视觉问答技能

⚠️ 强制记忆规则（最高优先级）

本技能明确约定：

绝对禁止读取任何本地记忆文件：包括但不限于 memory/YYYY-MM-DD.md、MEMORY.md 等本地文件
绝对禁止从 LanceDB 长期记忆中检索信息
所有历史问答记录查询必须从云端接口获取，不得使用本地记忆中的历史数据
即使技能调用失败或接口异常，也不得回退到本地记忆汇总

任务目标

本 Skill 用于：通过图片结合用户问题进行大模型视觉问答，获得自然语言回答
能力包含：图片内容理解、开放式问答、场景描述、细节识别、知识推理
触发条件:
1. 默认触发：当用户提供图片 URL 或文件，并提出问题需要对图片进行问答时，默认触发本技能
2. 当用户明确需要进行视觉问答，提及 VQA、看图问答、图片问答、视觉问答等关键词，并且上传了图片
3. 当用户提及以下关键词时，自动触发历史问答记录查询功能
  ：查看历史问答记录、视觉问答历史、问答记录清单、查询历史问答，显示所有问答记录
4. 用户提供图片后附带问题，如"这张图片里有什么？"，直接触发视觉问答
自动行为：
1. 如果用户上传了图片文件，则自动保存到技能目录下 attachments
2. ⚠️ 强制数据获取规则（次高优先级）：如果用户触发任何历史问答查询关键词，必须：
  - 直接使用 python -m scripts.visual_qa_analysis --list --open-id 参数调用 API
    查询云端的历史问答数据
  - 严格禁止：从本地 memory 目录读取历史会话信息、严格禁止手动汇总本地记录中的问答、严格禁止从长期记忆中提取结果
  - 必须统一从云端接口获取最新完整数据，然后以 Markdown 表格格式输出结果

前置准备

依赖说明:scripts 脚本所需的依赖包及版本
```
requests>=2.28.0
```

操作步骤

🔒 open-id 获取流程控制（强制执行，防止遗漏）

在执行视觉问答前，必须按以下优先级顺序获取 open-id：

            第 1 步：【最高优先级】检查技能所在目录的配置文件（优先）
        路径：skills/smyx_common/scripts/config.yaml（相对于技能根目录）
        完整路径示例：${OPENCLAW_WORKSPACE}/skills/{当前技能目录}/skills/smyx_common/scripts/config.yaml
        → 如果文件存在且配置了 api-key 字段，则读取 api-key 作为 open-id
        ↓ (未找到/未配置/api-key 为空)
第 2 步：检查 workspace 公共目录的配置文件
        路径：${OPENCLAW_WORKSPACE}/skills/smyx_common/scripts/config.yaml
        → 如果文件存在且配置了 api-key 字段，则读取 api-key 作为 open-id
        ↓ (未找到/未配置)
第 3 步：检查用户是否在消息中明确提供了 open-id
        ↓ (未提供)
第 4 步：❗ 必须暂停执行，明确提示用户提供用户名或手机号作为 open-id
          

⚠️ 关键约束：

禁止自行假设,自行推导,自行生成 open-id 值（如 openclaw-control-ui、default、vqa123 等）
禁止跳过 open-id 验证直接调用 API
必须在获取到有效 open-id 后才能继续执行问答
如果用户拒绝提供 open-id，说明用途（用于保存和查询视觉问答历史记录），并询问是否继续

标准流程:
1. 准备图片输入
  - 提供图片文件路径或网络图片 URL
  - 确保图片清晰，目标内容完整可见
  - 用户提出需要回答的问题
2. 获取 open-id（强制执行）
  - 按上述流程控制获取 open-id
  - 如无法获取，必须提示用户提供用户名或手机号
3. 执行视觉问答
  - 调用 -m scripts.visual_qa_analysis 处理图片（必须在技能根目录下运行脚本）
  - 参数说明:
    - --input: 本地图片文件路径（使用 multipart/form-data 方式上传）
    - --url: 网络图片 URL 地址（API 服务自动下载）
    - --question: 用户提出的问题（必填）
    - --open-id: 当前用户的 open-id（必填，按上述流程获取）
    - --list: 显示历史视觉问答列表清单
    - --api-key: API 访问密钥（可选）
    - --api-url: API 服务地址（可选，使用默认值）
    - --detail: 输出详细程度（basic/standard/json，默认 json）
    - --output: 结果输出文件路径（可选）
4. 查看回答结果
  - 接收大模型生成的自然语言回答
  - 包含问答基本信息、问题、回答内容

资源索引

必要脚本：见 scripts/visual_qa_analysis.py(用途：调用 API 进行视觉问答，本地文件使用 multipart/form-data 方式上传，网络 URL 由 API 服务自动下载)
配置文件：见 scripts/config.py(用途：配置 API 地址、默认参数和图片格式限制)
领域参考：见 references/api_doc.md(何时读取：需要了解 API 接口详细规范和错误码时)

注意事项

仅在需要时读取参考文档，保持上下文简洁
支持格式：图片支持 jpg/png/jpeg/webp 格式，最大 20MB
API 密钥可选，如果通过参数传入则必须确保调用鉴权成功，否则忽略鉴权
禁止临时生成脚本，只能用技能本身的脚本
传入的网络地址参数，不需要下载本地，默认地址都是公网地址，api 服务会自动下载
本技能依赖大模型生成，回答仅供参考，重要信息请核实后再使用
当显示历史问答清单的时候，从数据 json 中提取字段 reportImageUrl 作为超链接地址，使用 Markdown 表格格式输出，包含"
记录名称"、"问答时间"、"问题关键词"、"点击查看"四列，其中"记录名称"列使用视觉问答记录-{记录id}形式拼接, "点击查看"列使用
[🔗 查看回答](reportImageUrl)格式的超链接，用户点击即可直接跳转到对应的完整问答页面。
表格输出示例：

记录名称问答时间问题关键词点击查看

视觉问答记录-20260312172200001 2026-03-12 17:22:00 图片里有什么动物 🔗 查看回答

记录名称	问答时间	问题关键词	点击查看
视觉问答记录-20260312172200001	2026-03-12 17:22:00	图片里有什么动物	🔗 查看回答

使用示例

            # 本地图片问答（以下只是示例，禁止直接使用openclaw-control-ui 作为 open-id）
python -m scripts.visual_qa_analysis --input /path/to/image.jpg --question "这张图片里有什么内容？请描述一下" --open-id openclaw-control-ui

# 网络图片问答（以下只是示例，禁止直接使用openclaw-control-ui 作为 open-id）
python -m scripts.visual_qa_analysis --url https://example.com/image.jpg --question "图片中有几个人，他们在做什么？" --open-id openclaw-control-ui

# 显示历史问答记录（自动触发关键词：查看历史问答、历史记录、问答清单等）
python -m scripts.visual_qa_analysis --list --open-id openclaw-control-ui

# 输出精简回答
python -m scripts.visual_qa_analysis --input image.jpg --question "描述一下这张图片" --open-id your-open-id --detail basic

# 保存结果到文件
python -m scripts.visual_qa_analysis --input image.jpg --question "请识别图片中的文字内容" --open-id your-open-id --output result.json
          

Statistics

Downloads 22

Stars 0

Current installs 0

All-time installs 0

Versions 1

Comments 0

Created Apr 3, 2026

Updated Apr 3, 2026

Author

生命涌现

@raymond758

Latest Changes

v1.0.0 · Apr 3, 2026

Initial release of the "visual-qa-analysis" skill. - Enables open-ended visual question answering on images using computer vision and language models, supporting any type of question with natural language responses. - Strictly enforces use of cloud-based history retrieval—local or LancedDB memory files are never accessed for past Q&A data. - Requires validated open-id via multi-step checks before any operation; users must provide if not found in config files. - Automatically saves uploaded images to the skill's attachments directory. - Provides a clear process for querying, answering questions, and retrieving historical Q&A records with structured Markdown table output.

Quick Install

clawhub install visual-qa-analysis

Related Skills

Other popular skills you might find useful.

Agent Browser

MaTriXy

Headless browser automation CLI optimized for AI agents with accessibility tree snapshots and ref-based element selection

70.8k 263 v0.1.0

Browser Automation

peytoncasper

Automate web browser interactions using natural language via CLI commands. Use when the user asks to browse websites, navigate web pages, extract data from websites, take screenshots, fill forms, click buttons, or interact with web applications.

32.2k 46 v1.0.1