Tek Endpoint Kullanımı
LLMTR’de chat tabanlı tüm modeller /v1/chat/completions adresinden çağrılabilir. Sağlayıcı OpenAI uyumlu olsun olmasın, isteğiniz aynı format ile gönderilir, yanıt OpenAI Chat Completions formatında döner. Mevcut OpenAI SDK kodunuzla tüm katalog modellerini kullanabilirsiniz.
Örnek istek
Section titled “Örnek istek”curl https://llmtr.com/v1/chat/completions \ -H "Authorization: Bearer llmtr-YOUR_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "xai/grok-4", "messages": [{ "role": "user", "content": "Merhaba" }] }'from openai import OpenAI
client = OpenAI( base_url="https://llmtr.com/v1", api_key="llmtr-YOUR_KEY",)
resp = client.chat.completions.create( model="xai/grok-4", messages=[{"role": "user", "content": "Merhaba"}],)print(resp.choices[0].message.content)Reasoning effort
Section titled “Reasoning effort”Reasoning destekli modellerde effort seviyesi suffix olarak veya reasoning.effort alanı ile gönderilebilir.
curl https://llmtr.com/v1/chat/completions \ -H "Authorization: Bearer llmtr-YOUR_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "xai/grok-4:high", "messages": [{ "role": "user", "content": "Plan ver." }] }'Suffix değerleri: :low, :medium, :high, :max.
Streaming
Section titled “Streaming”stream: true ile istek atıldığında yanıt Server-Sent Events olarak chunk chunk döner. Format OpenAI Chat Completions ile aynıdır: data: {...}\n\n satırları ve sonda data: [DONE].
stream = client.chat.completions.create( model="xai/grok-4", messages=[{"role": "user", "content": "Uzun bir cevap yaz"}], stream=True,)for chunk in stream: delta = chunk.choices[0].delta.content if delta: print(delta, end="", flush=True)Ne zaman /v1/responses kullanılmalı
Section titled “Ne zaman /v1/responses kullanılmalı”Aşağıdaki ileri seviye özelliklere ihtiyaç duyuyorsanız /v1/responses doğrudan kullanılabilir:
reasoning_summaryçıktısına erişim- Provider’a özgü
instructionsalanı - Grok 4.20 multi-agent çalıştırma derinliği kontrolü
Detaylar: /docs/gateway/responses.
Faturalama
Section titled “Faturalama”Faturalama, modelin gerçek input/output token sayısına göre yapılır. Aynı model /v1/chat/completions veya /v1/responses üzerinden çağrıldığında token başına ücret aynıdır.