前言
在使用 Kernel Memory 的 TextChunker 來幫我們切 Chunk中將文字切段,
那裡怎麼取得檔案中的文字呢?
在Kernel Memory一樣有提供基本的Decoder來讓我們使用,
以下就來建立一個ExtractFile
Method 來取出檔案的文字 …
實作
1.加入Microsoft.KernelMemory
Nuget 套件
2.建立一個ExtractFile
Method
1 |
|
3.測試讀取的效果
1 | var docPath = @"new1.docx"; |
結果如下,

讀取 docx 檔案

讀取 pdf 檔案

讀取 網頁 內容

讀取 多欄 PDF
- 註: 從結果來看,PDF 在 Table 及多欄的資料處理的不是說很好。所以文件儘單欄、簡單 RAG 才會有比較好的效果。
- 註: 雖然取出 table 的內容沒有很好,但是在使用 Kernel Memory 和 MSSQL 快速建立 RAG 服務透過 LLM 來回答倒是正確的內容。
參考資源
Extract Text From a Multi-Column Document Using PyMuPDF in Python
使用 Kernel Memory 和 MSSQL 快速建立 RAG 服務