İçeriğe geç

Z.AI Thinking Kontrolu

Z.AI GLM modelleri, yanıt üretmeden önce iç bir düşünce zinciri (reasoning_content) oluşturabilir. Bu, yanıt kalitesini artırır; ancak düşünce tokenleri de çıktı tokeni olarak faturalanır, max_tokens bütçesinden tüketilir ve yanıt süresini uzatır.

LLMTR’de thinking varsayılan olarak KAPALIDIR (opt-in). Sade bir istekte düşünce tokeni harcanmaz; böylece kısa yanıtlar beklenmedik şekilde pahalıya gelmez. Thinking’i yalnızca açıkça istediğinizde çalışır:

  1. Model slug suffixzai/glm-5.1:think (açar) / zai/glm-5.1:fast (kapatır)
  2. Body alanı{ "reasoning": true } (açar) / { "reasoning": false } (kapatır)

Suffix veya body verilmezse gateway, Z.AI API’sine thinking: { "type": "disabled" } iletir.

ModelLLMTR varsayılanıAçıkça etkinleştirilebilir mi?
GLM-5.1, GLM-5, GLM-5-TurboKapalı (opt-in)Evet
GLM-5V-TurboKapalı (opt-in)Evet
GLM-4.7, GLM-4.7-FlashXKapalı (opt-in)Evet
GLM-4.6, GLM-4.6V, GLM-4.6V-FlashXKapalı (opt-in)Evet
GLM-4.5, GLM-4.5-X, GLM-4.5-Air, GLM-4.5-AirX, GLM-4.5VKapalı (opt-in)Evet
GLM-OCR, GLM-4-32B-0414-128KHayır

Thinking desteği olan tüm GLM modellerinde davranış aynıdır: :think suffix veya reasoning: true gönderildiğinde model düşünce zinciri üretir, aksi halde doğrudan yanıt verir.

Suffix :fast thinking’i devre dışı bırakır. Hız öncelikli ya da max_tokens kısıtlı senaryolar için kullanın.

Terminal window
curl https://llmtr.com/v1/chat/completions \
-H "Authorization: Bearer llmtr-your_key" \
-H "Content-Type: application/json" \
-d '{
"model": "zai/glm-5.1:fast",
"messages": [
{"role": "user", "content": "Merhaba"}
]
}'

Suffix :think thinking’i açıkça etkinleştirir (varsayılan kapalı olduğundan derin analiz için gereklidir):

Terminal window
"model": "zai/glm-4.5-air:think"

reasoning: false → thinking kapalı, reasoning: true → thinking açık. Hem suffix hem body verilirse body önceliklidir.

Terminal window
curl https://llmtr.com/v1/chat/completions \
-H "Authorization: Bearer llmtr-your_key" \
-H "Content-Type: application/json" \
-d '{
"model": "zai/glm-5.1",
"reasoning": false,
"messages": [
{"role": "user", "content": "Hızlı cevap ver"}
]
}'
from openai import OpenAI
client = OpenAI(
base_url="https://llmtr.com/v1",
api_key="llmtr-your_key",
)
# Thinking kapalı — hızlı mod
response = client.chat.completions.create(
model="zai/glm-5.1:fast",
messages=[{"role": "user", "content": "Kısa bir selamlama yaz"}],
)
print(response.choices[0].message.content)
# Thinking açık — derin analiz
response = client.chat.completions.create(
model="zai/glm-5.1:think",
messages=[{"role": "user", "content": "Bu algoritmanın zaman karmaşıklığını açıkla"}],
max_tokens=4000,
)
print(response.choices[0].message.content)
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://llmtr.com/v1",
apiKey: process.env.LLMTR_API_KEY,
});
// Thinking devre dışı
const fast = await client.chat.completions.create({
model: "zai/glm-4.7:fast",
messages: [{ role: "user", content: "Merhaba" }],
});
// Thinking etkin (body üzerinden)
const deep = await client.chat.completions.create({
model: "zai/glm-4.5-air",
messages: [{ role: "user", content: "Bu kodu incele ve hataları listele" }],
extra_body: { reasoning: true },
max_tokens: 4000,
});

Thinking tokenleri max_tokens bütçesinden tüketilir. Thinking açıkken düşük bir max_tokens değeri verilirse model yanıt üretemeden token limitine ulaşabilir.

Önerilen minimum max_tokens değerleri:

DurumÖnerilen minimum
Thinking açık, kısa soru1 500
Thinking açık, karmaşık soru4 000+
Thinking kapalı (:fast)256

Thinking kapalıyken düşünce tokeni harcanmaz; standart token sayısı yeterlidir.

Thinking tokenleri de çıktı tokeni olarak faturalandırılır. Maliyeti düşürmek için :fast suffix kullanarak thinking’i devre dışı bırakabilirsiniz. Daha fazla bilgi için Faturalama sayfasına bakın.