建议AI语意搜寻整合进单机离线版

unchained · 2025年08月18日01:09

现在很多AI系统都支持离线部署，比如Ollama+Anythingllm等。
可否提供单机版的AI包，或者整合进单机版的CBETA软件呢？
只需要将OpenAI的分析程序编译打包即可，用户可以自行下载所需的AI大模型（gguf）等。
这样就可以实现在本地经典，不用花费时间慢速等待了。

zhoubx · 2025年08月19日15:23

我個人感覺是個好主意，但還不知如何實現。
比較確定的是，目前 CBReader 的開發者大概沒空做這件事
感覺您有技術實做能力？
您有興趣做嗎？
跟 CBETA 資料界接的部分，我們可以合作。

unchained · 2025年08月27日01:22

惭愧，后学只是用户。不过现在已经有成熟的AI方案，比如：
使用LM Studio，GPT4ALL，Anythingllm等客户端软件，从中下载AI大模型到本地，然后就可以对大藏经文档库进行分析问答了。
只是想知道现在的“语意搜寻”功能是否经过了特殊的参数配置，以训练AI适应佛学专业知识的问答呢？如果可以提供这些参数给CBETA用户，自己配置自己的AI系统，就可以得到类似的结果。

ray · 2025年08月28日16:00

目前 CBETA 語意搜尋大概是這樣的做法：

一、資料準備

將整個 CBETA 切成小段落 (chunk), 每個 chunk 大約 300~400字。
每個 chunk 使用 BGE-M3 轉為 embedding vector.
將這些 chunks 存入 vector database (我們使用 Elasticsearch)

二、User 搜尋

將 user 輸入的 Query string 一樣使用 BGE-M3 轉為 embedding vector.
搜尋 vector database, 找到向量最接近的前20筆。
將 Query string 以及搜到的20筆資料丟給 LLM, 請 LLM 產生：
a. 相關度評分
b. 相關度說明
c. 綜合說明
d. 5個可能可以進一步詢問的相關問題

大概就是這樣的流程。
如果您要在自己的電腦上面做，
或許要看您使用的軟體套件能否接受匯入整個 CBETA 文字，
否則的話，您可能要自建 vector database,
這可能需要一點資訊技術背景才能搞定。
不過現在凡事都能問 AI, 或許您也可以問 AI 可以怎麼做

以上流程，目前速度太慢，我們正在設法改變流程、改善速度。

unchained · 2025年09月01日08:53

您好! 非常感謝,我可以在本地嘗試一下.

吉祥如意!