跳至主要内容

1 篇文章 含有標籤「v0.3.1」

檢視所有標籤

· 閱讀時間約 7 分鐘
Yung-Hsiang Hu

大家好,Kuwa v0.3.1 推出了, 這次的更新主要集中在多模態輸入輸出,語音及圖片皆有支援。再搭配先前推出的 Bot 系統及群聊功能,即可實現如會議摘要、演講摘要、簡易圖片生成、圖片修改等實用功能:

  1. 支援 Whisper 語音轉文字模型,可以上傳語音檔輸出逐字搞,並具備多語者辨識及時間戳記功能
  2. 支援 Stable Diffusion 圖片生成模型,可透過輸入一段文字來生成圖片,或是上傳一張圖片後指示模型如何改動
  3. Huggingface executor 支援串接視覺語言模型,如 Phi-3-Vision, LLaVA等
  4. RAG 支援直接透過 Web UI 及 Modelfile 調整參數,簡化調校門檻
  5. RAG 支援顯示原始文件與引用段落,方便檢視檢索效果以及幻覺
  6. 支援匯入預先建立的 RAG 向量資料庫,方便在不同系統間共享知識庫
  7. 安裝時可簡易選擇多種開放模型
  8. Multi-chat Web UI 支援直接將聊天紀錄匯出成PDF、Doc/ODT
  9. Multi-chat Web UI 支援 Modelfile 語法突顯,方便調整 Modelfile
  10. Kernel API 支援傳遞網站語系,讓 Executor 能根據使用者語系客製化
  11. Executor 移除預設的 System prompt 以避免影響模型效果