Tek Endpoint Kullanımı

LLMTR’de chat tabanlı tüm modeller /v1/chat/completions adresinden çağrılabilir. Sağlayıcı OpenAI uyumlu olsun olmasın, isteğiniz aynı format ile gönderilir, yanıt OpenAI Chat Completions formatında döner. Mevcut OpenAI SDK kodunuzla tüm katalog modellerini kullanabilirsiniz.

Örnek istek

curl https://llmtr.com/v1/chat/completions \
  -H "Authorization: Bearer llmtr-YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "xai/grok-4",
    "messages": [{ "role": "user", "content": "Merhaba" }]
  }'

from openai import OpenAI

client = OpenAI(
    base_url="https://llmtr.com/v1",
    api_key="llmtr-YOUR_KEY",
)

resp = client.chat.completions.create(
    model="xai/grok-4",
    messages=[{"role": "user", "content": "Merhaba"}],
)
print(resp.choices[0].message.content)

Reasoning effort

Reasoning destekli modellerde effort seviyesi suffix olarak veya reasoning.effort alanı ile gönderilebilir.

curl https://llmtr.com/v1/chat/completions \
  -H "Authorization: Bearer llmtr-YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "xai/grok-4:high",
    "messages": [{ "role": "user", "content": "Plan ver." }]
  }'

Suffix değerleri: :low, :medium, :high, :max.

Streaming

stream: true ile istek atıldığında yanıt Server-Sent Events olarak chunk chunk döner. Format OpenAI Chat Completions ile aynıdır: data: {...}\n\n satırları ve sonda data: [DONE].

stream = client.chat.completions.create(
    model="xai/grok-4",
    messages=[{"role": "user", "content": "Uzun bir cevap yaz"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Ne zaman `/v1/responses` kullanılmalı

Aşağıdaki ileri seviye özelliklere ihtiyaç duyuyorsanız /v1/responses doğrudan kullanılabilir:

reasoning_summary çıktısına erişim
Provider’a özgü instructions alanı
Grok 4.20 multi-agent çalıştırma derinliği kontrolü

Detaylar: /docs/gateway/responses.

Faturalama

Faturalama, modelin gerçek input/output token sayısına göre yapılır. Aynı model /v1/chat/completions veya /v1/responses üzerinden çağrıldığında token başına ücret aynıdır.