Kuwa v0.3.1 初步支援了常見的視覺語言模型 (VLM), 這類模型不但可以輸入文字,還可以輸入圖片,並根據圖片內容回應使用者的指令。 本篇教學將帶您初步建立與使用 VLM。
VLM Executor 建置
Kuwa v0.3.1 擴充了原先的 Huggingface executor,使其能支援 VLM,
目前初步支援 Phi-3-Vision, LLaVA v1.5 與 LLaVA v1.6 等三種常見的 VLM,
以下以 LLaVA v1.6 為例。
Windows 版建置流程
參考先前的 Llama3建置教學,
"model path" 輸入 llava-hf/llava-v1.6-mistral-7b-hf
,"Arguments to use" 留白即可。