前言
在實務上使用大型語言模型(LLM)進行影像內容解析(OCR + 內容理解)時,
並不存在一個模型可以適用所有情境的解法。
影像的數量、解析度、內容多寡,以及是否包含表格或手寫文字,
都會大幅影響解析結果的正確性與穩定度。
本文整理實際專案中,針對 LLM(GPT-4.1-mini、Gemini)
以及 Azure Document Intelligence 在不同影像解析場景下的使用心得。
情境一:單張或少量影像、內容單純(無表格)
特性
- 單張或少量影像
- 內容不多
- 無表格結構
- 以印刷體文字為主
建議工具
- GPT-4.1-mini/Gemini 3 Flash
實際案例
- 加油發票
- 簡單收據
- 欄位固定、格式單純的文件
在這類情境中,直接使用 LLM 解析影像即可,
具備速度快、成本低且彈性高的優勢。
情境二:多張影像同時辨識(解析度影響明顯)
特性
- 一次輸入多張影像
- 例如:一頁中包含 5 張加油發票
- 單張影像解析度偏低
實務觀察
GPT-4.1-mini
- 當影像解析度不足時,中文辨識可能出現錯字或漏字
Gemini 3 Flash
- 在相同條件下,能完整且正確擷取中文內容
Azure Document Intelligence
- 因缺乏表格結構,多張發票內容容易發生欄位或文字錯置
註:在「多張影像、低解析度、無表格」的情境下,
Gemini 3 Flash 的穩定度與中文辨識表現較佳。
情境三:影像包含表格、內容多或有手寫文字
特性
- 具備明確表格結構
- 內容量大
- 同時包含印刷體與手寫文字
建議工具
- Azure Document Intelligence
實際案例
- 電費單
- 水費單
- 帳單、報表類文件
這類文件結構明確,
Azure Document Intelligence 在表格解析、欄位對齊與手寫文字辨識方面表現穩定,
比純 LLM 更適合長篇且結構化的文件。
整體選擇建議總結
可簡單歸納為以下原則:
- 有表格、內容多、包含手寫文字
- 優先使用 Azure Document Intelligence
- 內容少、無表格
- 使用 LLM(GPT-4.1-mini 或 Gemini)
- 多張影像、解析度偏低
- 優先考慮 Gemini 3 Flash
但使用 Azure Document Intelligence 後,通常會再把內容給 LLM 來整理出需要的內容。
如果只能在地端的話,以中國的模型效果比較好,例如 Qwen 的模型。
如果是特別的領域,可以拿中國的模型再來 Finetune 成自家需要的 Model。
結語
影像 OCR 並不存在「一個工具打天下」的最佳解法,
理解文件特性並選擇合適的工具,往往比追求最新模型更重要。
在實務系統中,混合使用 LLM 與文件解析服務,
通常能在成本、準確率與穩定度之間取得更好的平衡。
希望這些實戰心得,能對正在進行影像解析或文件自動化的你有所幫助。