ComfyUI_MiniCPM-V-4_5
★ 260
多模态图像字幕视频理解视觉-语言
ComfyUI 上的 MiniCPM-V-4_5 实现,提供文本、单/多图与视频的多模态查询能力,可生成图像/视频字幕与对话响应,便于在 ComfyUI 中集成视觉-语言任务。
💡 在 ComfyUI 中对图片或视频生成字幕与多模态问答响应
🍴 15 Forks💻 Python🔄 2025-08-29
https://pan.quark.cn/s/a1f1f564f19c
📦 requirements.txt
torch
torchvision
torchaudio
numpy
pillow
huggingface_hub
transformers
bitsandbytes
accelerate