İçeriğe geç

Streaming

İstek gövdesine "stream": true eklerseniz gateway Server-Sent Events (SSE) formatında token token yanıt döner. OpenAI SDK’larının streaming modu out-of-the-box çalışır.

Terminal window
curl https://llmtr.com/v1/chat/completions \
-H "Authorization: Bearer sk_your_key" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-4o",
"messages": [
{"role": "user", "content": "Hello!"}
],
"stream": true
}'

Her chunk bir data: {json} satırıdır:

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"delta":{"content":"Hel"}}]}
data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"delta":{"content":"lo"}}]}
data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"delta":{},"finish_reason":"stop"}]}
data: [DONE]

OpenAI’daki gibi son chunk içinde usage alanı yoktur (varsayılan). stream_options.include_usage: true parametresi ile destekleyen modellerde son chunk içinde token sayısı döner.

  • Streaming sırasında bağlantı koparsa tüketilen token yine faturalanır.
  • Proxy’niz SSE için buffering kapalı olmalı (nginx için proxy_buffering off).
  • WebSocket değil, uzun süreli HTTP bağlantısı kullanılır.