Z.AI Thinking Kontrolu

Z.AI GLM modelleri, yanıt üretmeden önce iç bir düşünce zinciri (reasoning_content) oluşturabilir. Bu, yanıt kalitesini artırır; ancak düşünce tokenleri de çıktı tokeni olarak faturalanır, max_tokens bütçesinden tüketilir ve yanıt süresini uzatır.

LLMTR’de thinking varsayılan olarak KAPALIDIR (opt-in). Sade bir istekte düşünce tokeni harcanmaz; böylece kısa yanıtlar beklenmedik şekilde pahalıya gelmez. Thinking’i yalnızca açıkça istediğinizde çalışır:

Model slug suffix — zai/glm-5.1:think (açar) / zai/glm-5.1:fast (kapatır)
Body alanı — { "reasoning": true } (açar) / { "reasoning": false } (kapatır)

Suffix veya body verilmezse gateway, Z.AI API’sine thinking: { "type": "disabled" } iletir.

Hangi modeller thinking destekler?

Model	LLMTR varsayılanı	Açıkça etkinleştirilebilir mi?
GLM-5.1, GLM-5, GLM-5-Turbo	Kapalı (opt-in)	Evet
GLM-5V-Turbo	Kapalı (opt-in)	Evet
GLM-4.7, GLM-4.7-FlashX	Kapalı (opt-in)	Evet
GLM-4.6, GLM-4.6V, GLM-4.6V-FlashX	Kapalı (opt-in)	Evet
GLM-4.5, GLM-4.5-X, GLM-4.5-Air, GLM-4.5-AirX, GLM-4.5V	Kapalı (opt-in)	Evet
GLM-OCR, GLM-4-32B-0414-128K	—	Hayır

Thinking desteği olan tüm GLM modellerinde davranış aynıdır: :think suffix veya reasoning: true gönderildiğinde model düşünce zinciri üretir, aksi halde doğrudan yanıt verir.

Slug suffix ile thinking kapatma

Suffix :fast thinking’i devre dışı bırakır. Hız öncelikli ya da max_tokens kısıtlı senaryolar için kullanın.

curl https://llmtr.com/v1/chat/completions \
  -H "Authorization: Bearer llmtr-your_key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "zai/glm-5.1:fast",
    "messages": [
      {"role": "user", "content": "Merhaba"}
    ]
  }'

Suffix :think thinking’i açıkça etkinleştirir (varsayılan kapalı olduğundan derin analiz için gereklidir):

"model": "zai/glm-4.5-air:think"

Body alanı ile kontrol

reasoning: false → thinking kapalı, reasoning: true → thinking açık. Hem suffix hem body verilirse body önceliklidir.

curl https://llmtr.com/v1/chat/completions \
  -H "Authorization: Bearer llmtr-your_key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "zai/glm-5.1",
    "reasoning": false,
    "messages": [
      {"role": "user", "content": "Hızlı cevap ver"}
    ]
  }'

Python (OpenAI SDK)

from openai import OpenAI

client = OpenAI(
    base_url="https://llmtr.com/v1",
    api_key="llmtr-your_key",
)

# Thinking kapalı — hızlı mod
response = client.chat.completions.create(
    model="zai/glm-5.1:fast",
    messages=[{"role": "user", "content": "Kısa bir selamlama yaz"}],
)
print(response.choices[0].message.content)

# Thinking açık — derin analiz
response = client.chat.completions.create(
    model="zai/glm-5.1:think",
    messages=[{"role": "user", "content": "Bu algoritmanın zaman karmaşıklığını açıkla"}],
    max_tokens=4000,
)
print(response.choices[0].message.content)

JavaScript (OpenAI SDK)

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://llmtr.com/v1",
  apiKey: process.env.LLMTR_API_KEY,
});

// Thinking devre dışı
const fast = await client.chat.completions.create({
  model: "zai/glm-4.7:fast",
  messages: [{ role: "user", content: "Merhaba" }],
});

// Thinking etkin (body üzerinden)
const deep = await client.chat.completions.create({
  model: "zai/glm-4.5-air",
  messages: [{ role: "user", content: "Bu kodu incele ve hataları listele" }],
  extra_body: { reasoning: true },
  max_tokens: 4000,
});

max_tokens ve thinking

Thinking tokenleri max_tokens bütçesinden tüketilir. Thinking açıkken düşük bir max_tokens değeri verilirse model yanıt üretemeden token limitine ulaşabilir.

Önerilen minimum max_tokens değerleri:

Durum	Önerilen minimum
Thinking açık, kısa soru	1 500
Thinking açık, karmaşık soru	4 000+
Thinking kapalı (`:fast`)	256

Thinking kapalıyken düşünce tokeni harcanmaz; standart token sayısı yeterlidir.

Faturalama

Thinking tokenleri de çıktı tokeni olarak faturalandırılır. Maliyeti düşürmek için :fast suffix kullanarak thinking’i devre dışı bırakabilirsiniz. Daha fazla bilgi için Faturalama sayfasına bakın.