ComfyUI_MiniCPM-V-4_5

★ 260

多模态图像字幕视频理解视觉-语言

ComfyUI 上的 MiniCPM-V-4_5 实现，提供文本、单/多图与视频的多模态查询能力，可生成图像/视频字幕与对话响应，便于在 ComfyUI 中集成视觉-语言任务。

💡 在 ComfyUI 中对图片或视频生成字幕与多模态问答响应

🍴 15 Forks💻 Python🔄 2025-08-29

📦

网盘下载

复制链接后前往夸克网盘下载

https://pan.quark.cn/s/a1f1f564f19c

📦 requirements.txt

torch
torchvision
torchaudio
numpy
pillow
huggingface_hub
transformers
bitsandbytes
accelerate

📄 README