Streaming

İstek gövdesine "stream": true eklerseniz gateway Server-Sent Events (SSE) formatında token token yanıt döner. OpenAI SDK’larının streaming modu out-of-the-box çalışır.

Akış örneği

curl https://llmtr.com/v1/chat/completions \
  -H "Authorization: Bearer sk_your_key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o",
    "messages": [
      {"role": "user", "content": "Hello!"}
    ],
    "stream": true
  }'

from openai import OpenAI

client = OpenAI(base_url="https://llmtr.com/v1", api_key="sk_your_key")

stream = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[{"role": "user", "content": "Write a short poem."}],
    stream=True
)

for chunk in stream:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://llmtr.com/v1",
  apiKey: "sk_your_key"
});

const stream = await client.chat.completions.create({
  model: "openai/gpt-4o",
  messages: [{ role: "user", content: "Write a short poem." }],
  stream: true
});

for await (const chunk of stream) {
  process.stdout.write(chunk.choices[0]?.delta?.content ?? "");
}

Chunk formatı

Her chunk bir data: {json} satırıdır:

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"delta":{"content":"Hel"}}]}

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"delta":{"content":"lo"}}]}

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"delta":{},"finish_reason":"stop"}]}

data: [DONE]

Usage alanı

OpenAI’daki gibi son chunk içinde usage alanı yoktur (varsayılan). stream_options.include_usage: true parametresi ile destekleyen modellerde son chunk içinde token sayısı döner.

Önemli notlar

Streaming sırasında bağlantı koparsa tüketilen token yine faturalanır.
Proxy’niz SSE için buffering kapalı olmalı (nginx için proxy_buffering off).
WebSocket değil, uzun süreli HTTP bağlantısı kullanılır.