前言
在SK-Kernel Memory (KM) 初探透過 KernelMemoryBuilder
來建立 MemoryServerless
,
讓我們將一些檔案進行讀取、切段、轉成 Embeddings,最後存到資料庫。
並可以讓我們詢問問題後,再取回答案。
Hello! 我是 RM
在SK-Kernel Memory (KM) 初探透過 KernelMemoryBuilder
來建立 MemoryServerless
,
讓我們將一些檔案進行讀取、切段、轉成 Embeddings,最後存到資料庫。
並可以讓我們詢問問題後,再取回答案。
現在很多企業都在使用 Retrieval Augmented Generation(RAG),
先把各個文件先切一段一段(例如 利用各種 Library 將文件讀進來,再將 200 個字,每段又 overlap 50 個字)轉成 embeddings 再放到 embeddings 資料庫,
這裡會使用到 LLM 的 embeddings model ,例如 text-embedding-ada-002
。
當使用者輸入問題後,同時也將這個問題轉成 embeddings ,再與 embeddings 資料庫找相似度,例如使用 BM25 來比較。
取得相似度高的內容後,再呼叫 GPT-3.5 Turbo
轉成較口語化的回答內容。
這麼多的 Task ,現在可以透過 kernel-memory 來達成,
以下就來看看它有多簡單 ^_^
在 Microsoft Entra ID(Azure AD)的 App registrations 建立 App (Supported account types 設定為 Accounts in this organizational directory only (你的組織 only - Single tenant)
)並建立它的 Certificates & secrets ,然後建立 Azure Bot 並設定 Microsoft App ID ,Type of App
設定為 Single Tenant 對應到上述的 App。
透過 App 的 clientId 及 secrets 到 https://login.microsoftonline.com/botframework.com/oauth2/v2.0/token
取得 token 時,發生AADSTS700016的錯誤。
最近 OpenAI 有推出 GPTs 可以很方便的讓人直接上傳文件做人知識庫並建立 Bot 來對話,
對話的理解能力還不輸之前自已將文件內容拆分一段段轉成 Embedding 後再跟使用者的問來來比較相似度。
但因為目前 GPTs 還不 Support API 存取,所以改用 OpenAI Assistants API 來試試。
另外 OpenAI Assistants API 是用多少算多少$,可以從 usage 看到目前的花費(預設有給 5
美元)。
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true