ComfyUI-Qwen-VL-API

ComfyUI-Qwen-VL-API
★ 220

多模态视觉理解OCR文字识别高分辨率支持
将QWen-VL-Plus/Max接入ComfyUI,提供高精度视觉理解、文字识别与视觉推理,支持百万像素与任意长宽比图像,使用隐式API Key并自动清理临时本地图像。
💡 在ComfyUI中调用QWen-VL进行图像理解与问答
🍴 20 Forks💻 Python🔄 2024-05-22
📦
网盘下载
复制链接后前往夸克网盘下载
https://pan.quark.cn/s/e00a65475347
📦 requirements.txt
dashscope
qwenvl
Dingtalk_20240130191521
image
Dingtalk_20240130191546
Dingtalk_20240130133911
Dingtalk_20240130174301
Dingtalk_20240130200115
Star History Chart
📄 README

QWen-VL in ComfyUI

项目介绍 | Info

  • 将阿里 QWen-VL 双模型(Plus & Max)通过 API 调用引入到 ComfyUI 中,初测下来 QWen-VL 是目前开源世界最好的视觉模型
  • 目前 QWen-VL API 免费开放(🆕刚收到阿里的通知:3.18开始正式收费!收费标准见下图),你可以在这里申请一个自己的 API Key:QWen-VL API 申请
  • 版本:V1.0 支持单/多轮对话双模式、支持读取本地图像
  • 视频演示

    https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API/assets/140084057/430d4ea1-6484-46e2-85bf-ad7cf95dda95

    详细说明 | Features

  • QWen-VL 目前提供 2 种模型:
  • | 模型 | 说明 |

    |————–|—————————|

    | QWen-VL-Plus | 通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。|

    | QWen-VL-Max | 通义千问超大规模视觉语言模型。相比增强版,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。 |

  • 节点(均采用隐式 API KEY):
  • ㊙️QWenVL_Zho:同时支持两种模型,接受本地图像作为输入(图像仅临时储存用完会自动清除)
  • ㊙️QWenVL_Chat_Zho:同时支持两种模型,支持上下文窗口,接受本地图像作为输入(图像储存在 /custom nodes/ComfyUI-Qwen-VL-API/qw 文件夹中,可手动清理)
  • 节点示例 & 与 Gemini-Pro-Vision 对比(描述更准更详细,且支持上下文多轮对话,Gemini-Pro-Vision 仅支持单轮对话):
  • 上下文多轮对话:
  • 参数说明 | Parameters

  • image:接入本地图像
  • prompt:提示词
  • model_name:模型选择,QWen-VL-Plus 或 QWen-VL-Max
  • seed:随机种子
  • 使用方法 | How to use

  • 首先需要申请一个自己的 QWen-VL_API_Key:QWen-VL API 申请
  • 将你的 QWen-VL_API_Key 添加到 config.json 文件中,运行时会自动加载
  • 输出节点可配合像ComfyUI-Gemini中 ✨DisplayText_Zho 一样的任何接受文本的节点
  • 安装 | Install

  • 推荐使用管理器 ComfyUI Manager 安装(ON THE WAY)
  • 手动安装:
  • cd custom_nodes
  • https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API.git
  • cd custom_nodes/ComfyUI-Qwen-VL-API
  • pip install -r requirements.txt
  • 重启 ComfyUI
  • 工作流 | Workflow

    V1.0 工作流

    Qwen-VL V1.0【Zho】

    更新日志 | Changelog

    20240130

  • V1.0版:支持单/多轮对话双模式、支持读取本地图像
  • 创建项目
  • Stars

    [](https://star-history.com/#ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API&Timeline)

    关于我 | About me

    📬 联系我

  • 邮箱:zhozho3965@gmail.com
  • QQ 群:839821928
  • 🔗 社交媒体

  • 个人页:-Zho-
  • Bilibili:我的B站主页
  • X(Twitter):我的Twitter
  • 小红书:我的小红书主页
  • 💡 支持我

  • B站:B站充电
  • 爱发电:为我充电
  • Credits

    QWen-VL