建议AI语意搜寻整合进单机离线版

现在很多AI系统都支持离线部署,比如Ollama+Anythingllm等。
可否提供单机版的AI包,或者整合进单机版的CBETA软件呢?
只需要将OpenAI的分析程序编译打包即可,用户可以自行下载所需的AI大模型(gguf)等。
这样就可以实现在本地经典,不用花费时间慢速等待了。

2個讚

我個人感覺是個好主意,但還不知如何實現。
比較確定的是,目前 CBReader 的開發者大概沒空做這件事 :slight_smile:
感覺您有技術實做能力?
您有興趣做嗎?
跟 CBETA 資料界接的部分,我們可以合作。

2個讚

惭愧,后学只是用户。不过现在已经有成熟的AI方案,比如:
使用LM Studio,GPT4ALL,Anythingllm等客户端软件,从中下载AI大模型到本地,然后就可以对大藏经文档库进行分析问答了。
只是想知道现在的“语意搜寻”功能是否经过了特殊的参数配置,以训练AI适应佛学专业知识的问答呢?如果可以提供这些参数给CBETA用户,自己配置自己的AI系统,就可以得到类似的结果。:slightly_smiling_face: :folded_hands:

1個讚

目前 CBETA 語意搜尋 大概是這樣的做法:

一、資料準備

  1. 將整個 CBETA 切成小段落 (chunk), 每個 chunk 大約 300~400字。
  2. 每個 chunk 使用 BGE-M3 轉為 embedding vector.
  3. 將這些 chunks 存入 vector database (我們使用 Elasticsearch)

二、User 搜尋

  1. 將 user 輸入的 Query string 一樣使用 BGE-M3 轉為 embedding vector.
  2. 搜尋 vector database, 找到向量最接近的前20筆。
  3. 將 Query string 以及搜到的20筆資料 丟給 LLM, 請 LLM 產生:
    a. 相關度評分
    b. 相關度說明
    c. 綜合說明
    d. 5個可能可以進一步詢問的相關問題

大概就是這樣的流程。
如果您要在自己的電腦上面做,
或許要看您使用的軟體套件能否接受匯入整個 CBETA 文字,
否則的話,您可能要自建 vector database,
這可能需要一點資訊技術背景才能搞定。
不過現在凡事都能問 AI, 或許您也可以問 AI 可以怎麼做 :slight_smile:

以上流程,目前速度太慢,我們正在設法改變流程、改善速度。

您好! 非常感謝,我可以在本地嘗試一下.

吉祥如意!

1個讚