GPT 給 Image Base64 字串花費的 Token數比給 Url 還來得多很多?

2025-07-31

問題

有人說使用 gpt-4o, gpt-4.1 這種多模態 LLM，呼叫 ChatCompletion API 給 Image 時，
如果給 Image 的 Base64 內容，所花的 Token 數會比給 Image URL 來得多很多 (´− ｀) ﾝｰ (¬_¬)
是因為 Image 的 Base64 字串長度比 Image URL 的字串內容多很多。

所以，如果要給圖檔時，要想儘辦法讓 OpenAI API 可以讀取到圖檔，
也就是要允許圖檔可以讓 internet 連到 !!!

Image 的 Base64 內容，所花的 Token 數會比給 Image URL 來得多很多，這是真的嗎?

以下我們就來驗證看看，

測試

使用 Semantic Kernel C#，使用 ImageContent 分別給 url 及 file bytes (base64)，程式如下，

IKernelBuilder builder = Kernel.CreateBuilder();
const string apikey = "sk-請給 openai apikey";
const string model = "gpt-4.1-mini";

builder.AddOpenAIChatCompletion(model, apikey);
Kernel kernel = builder.Build();

var chatCompletionService = kernel.GetRequiredService<IChatCompletionService>();

ChatHistory chatHistory = new();
string textContent = "請將摘要這張圖片中的文字。\r\n";
bool isUseUri = true; //or false

if (isUseUri)
{
    chatHistory.Add(
        new()
        {
            Role = AuthorRole.User,
            Items = [
                new TextContent(textContent),
            new ImageContent(new Uri($"{對外的ImageUrl}"))
            ]
        }
    );
}
else
{
    byte[] imageBytes = File.ReadAllBytes("path/to/your/image.png");
    chatHistory.Add(
        new()
        {
            Role = AuthorRole.User,
            Items = [
               new TextContent(textContent),
                new ImageContent(imageBytes, "image/png")
            ]
        }
    );
}


var reply = await chatCompletionService.GetChatMessageContentAsync(chatHistory);
Console.WriteLine("================");
Console.WriteLine(reply.Content);
Console.WriteLine("================");
Helper.OutputInnerContent(reply.InnerContent as OpenAI.Chat.ChatCompletion);



public static void OutputInnerContent(OpenAI.Chat.ChatCompletion innerContent)
{
    Console.WriteLine($"Message role: {innerContent.Role}"); // Available as a property of ChatMessageContent
    Console.WriteLine($"Message content: {innerContent.Content[0].Text}"); // Available as a property of ChatMessageContent

    Console.WriteLine($"Model: {innerContent.Model}"); // Model doesn't change per chunk, so we can get it from the first chunk only
    Console.WriteLine($"Created At: {innerContent.CreatedAt}");

    Console.WriteLine($"Finish reason: {innerContent.FinishReason}");
    Console.WriteLine($"Input tokens usage: {innerContent.Usage.InputTokenCount}");
    Console.WriteLine($"Output tokens usage: {innerContent.Usage.OutputTokenCount}");
    Console.WriteLine($"Total tokens usage: {innerContent.Usage.TotalTokenCount}");
    Console.WriteLine($"Refusal: {innerContent.Refusal} ");
    Console.WriteLine($"Id: {innerContent.Id}");
    Console.WriteLine($"System fingerprint: {innerContent.SystemFingerprint}");

    if (innerContent.ContentTokenLogProbabilities.Count > 0)
    {
        Console.WriteLine("Content token log probabilities:");
        foreach (var contentTokenLogProbability in innerContent.ContentTokenLogProbabilities)
        {
            Console.WriteLine($"Token: {contentTokenLogProbability.Token}");
            Console.WriteLine($"Log probability: {contentTokenLogProbability.LogProbability}");

            Console.WriteLine("   Top log probabilities for this token:");
            foreach (var topLogProbability in contentTokenLogProbability.TopLogProbabilities)
            {
                Console.WriteLine($"   Token: {topLogProbability.Token}");
                Console.WriteLine($"   Log probability: {topLogProbability.LogProbability}");
                Console.WriteLine("   =======");
            }

            Console.WriteLine("--------------");
        }
    }

    if (innerContent.RefusalTokenLogProbabilities.Count > 0)
    {
        Console.WriteLine("Refusal token log probabilities:");
        foreach (var refusalTokenLogProbability in innerContent.RefusalTokenLogProbabilities)
        {
            Console.WriteLine($"Token: {refusalTokenLogProbability.Token}");
            Console.WriteLine($"Log probability: {refusalTokenLogProbability.LogProbability}");

            Console.WriteLine("   Refusal top log probabilities for this token:");
            foreach (var topLogProbability in refusalTokenLogProbability.TopLogProbabilities)
            {
                Console.WriteLine($"   Token: {topLogProbability.Token}");
                Console.WriteLine($"   Log probability: {topLogProbability.LogProbability}");
                Console.WriteLine("   =======");
            }
        }
    }
}

註: new ImageContent(imageBytes, "image/png")中的 imageBytes會被轉成 Base64 字串(DataEncodingHelpers.cs)，如下程式，

public static string CreateDataUri(BinaryData bytes, string bytesMediaType)
{
    string base64Bytes = Convert.ToBase64String(bytes.ToArray());
    return $"data:{bytesMediaType};base64,{base64Bytes}";
}

程式 Log 出來的輸入 Token 是 2,456 個，如下圖:

從 OpenAI 的 Log 來看，2 次的 Input Token 都是 2,456 個，跟我們程式 Log 出來的結果相同，如下圖:

總結

使用多模態 LLM，給 Image 的 Url 或是給 Base64 字串，所花費的 Input Token 數是一樣的!
差別就在於 Post API 時的 Payload 大小而已。
如果是企業內的圖檔，建議使用 Base64 的方式，也不會有圖檔要對外的問題。

最後，再強調一次，

使用多模態 LLM，給 Image 的 Url 或是給 Base64 字串，所花費的 Input Token 數是一樣的 (>人<)

參考資源

Multi-modal chat completion
DataEncodingHelpers.cs - CreateDataUri

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true