大家好,Kuwa v0.3.1 推出了, 這次的更新主要集中在多模態輸入輸出,語音及圖片皆有支援。再搭配先前推出的 Bot 系統及群聊功能,即可實現如會議摘要、演講摘要、簡易圖片生成、圖片修改等實用功能:
- 支援 Whisper 語音轉文字模型,可以上傳語音檔輸出逐字搞,並具備多語者辨識及時間戳記功能
- 支援 Stable Diffusion 圖片生成模型,可透過輸入一段文字來生成圖片,或是上傳一張圖片後指示模型如何改動
- Huggingface executor 支援串接視覺語言模型,如 Phi-3-Vision, LLaVA等
- RAG 支援直接透過 Web UI 及 Modelfile 調整參數,簡化調校門檻
- RAG 支援顯示原始文件與引用段落,方便檢視檢索效果以及幻覺
- 支援匯入預先建立的 RAG 向量資料庫,方便在不同系統間共享知識庫
- 安裝時可簡易選擇多種開放模型
- Multi-chat Web UI 支援直接將聊天紀錄匯出成PDF、Doc/ODT
- Multi-chat Web UI 支援 Modelfile 語法突顯,方便調整 Modelfile
- Kernel API 支援傳遞網站語系,讓 Executor 能根據使用者語系客製化
- Executor 移除預設的 System prompt 以避免影響模型效果
訊息
kuwa-v0.3.1 下載資訊: https://github.com/kuwaai/genai-os/releases/tag/v0.3.1
kuwa-v0.3.1 單一執行檔下載連結: https://github.com/kuwaai/genai-os/releases/download/v0.3.1/Kuwa-GenAI-OS-v0.3.1.exe