Z.AI Thinking Kontrolu
Z.AI GLM modelleri, yanıt üretmeden önce iç bir düşünce zinciri (reasoning_content) oluşturabilir.
Bu, yanıt kalitesini artırır; ancak düşünce tokenleri de çıktı tokeni olarak faturalanır, max_tokens
bütçesinden tüketilir ve yanıt süresini uzatır.
LLMTR’de thinking varsayılan olarak KAPALIDIR (opt-in). Sade bir istekte düşünce tokeni harcanmaz; böylece kısa yanıtlar beklenmedik şekilde pahalıya gelmez. Thinking’i yalnızca açıkça istediğinizde çalışır:
- Model slug suffix —
zai/glm-5.1:think(açar) /zai/glm-5.1:fast(kapatır) - Body alanı —
{ "reasoning": true }(açar) /{ "reasoning": false }(kapatır)
Suffix veya body verilmezse gateway, Z.AI API’sine thinking: { "type": "disabled" } iletir.
Hangi modeller thinking destekler?
Section titled “Hangi modeller thinking destekler?”| Model | LLMTR varsayılanı | Açıkça etkinleştirilebilir mi? |
|---|---|---|
| GLM-5.1, GLM-5, GLM-5-Turbo | Kapalı (opt-in) | Evet |
| GLM-5V-Turbo | Kapalı (opt-in) | Evet |
| GLM-4.7, GLM-4.7-FlashX | Kapalı (opt-in) | Evet |
| GLM-4.6, GLM-4.6V, GLM-4.6V-FlashX | Kapalı (opt-in) | Evet |
| GLM-4.5, GLM-4.5-X, GLM-4.5-Air, GLM-4.5-AirX, GLM-4.5V | Kapalı (opt-in) | Evet |
| GLM-OCR, GLM-4-32B-0414-128K | — | Hayır |
Thinking desteği olan tüm GLM modellerinde davranış aynıdır: :think suffix veya reasoning: true
gönderildiğinde model düşünce zinciri üretir, aksi halde doğrudan yanıt verir.
Slug suffix ile thinking kapatma
Section titled “Slug suffix ile thinking kapatma”Suffix :fast thinking’i devre dışı bırakır. Hız öncelikli ya da max_tokens kısıtlı senaryolar için kullanın.
curl https://llmtr.com/v1/chat/completions \ -H "Authorization: Bearer llmtr-your_key" \ -H "Content-Type: application/json" \ -d '{ "model": "zai/glm-5.1:fast", "messages": [ {"role": "user", "content": "Merhaba"} ] }'Suffix :think thinking’i açıkça etkinleştirir (varsayılan kapalı olduğundan derin analiz için gereklidir):
"model": "zai/glm-4.5-air:think"Body alanı ile kontrol
Section titled “Body alanı ile kontrol”reasoning: false → thinking kapalı, reasoning: true → thinking açık.
Hem suffix hem body verilirse body önceliklidir.
curl https://llmtr.com/v1/chat/completions \ -H "Authorization: Bearer llmtr-your_key" \ -H "Content-Type: application/json" \ -d '{ "model": "zai/glm-5.1", "reasoning": false, "messages": [ {"role": "user", "content": "Hızlı cevap ver"} ] }'Python (OpenAI SDK)
Section titled “Python (OpenAI SDK)”from openai import OpenAI
client = OpenAI( base_url="https://llmtr.com/v1", api_key="llmtr-your_key",)
# Thinking kapalı — hızlı modresponse = client.chat.completions.create( model="zai/glm-5.1:fast", messages=[{"role": "user", "content": "Kısa bir selamlama yaz"}],)print(response.choices[0].message.content)
# Thinking açık — derin analizresponse = client.chat.completions.create( model="zai/glm-5.1:think", messages=[{"role": "user", "content": "Bu algoritmanın zaman karmaşıklığını açıkla"}], max_tokens=4000,)print(response.choices[0].message.content)JavaScript (OpenAI SDK)
Section titled “JavaScript (OpenAI SDK)”import OpenAI from "openai";
const client = new OpenAI({ baseURL: "https://llmtr.com/v1", apiKey: process.env.LLMTR_API_KEY,});
// Thinking devre dışıconst fast = await client.chat.completions.create({ model: "zai/glm-4.7:fast", messages: [{ role: "user", content: "Merhaba" }],});
// Thinking etkin (body üzerinden)const deep = await client.chat.completions.create({ model: "zai/glm-4.5-air", messages: [{ role: "user", content: "Bu kodu incele ve hataları listele" }], extra_body: { reasoning: true }, max_tokens: 4000,});max_tokens ve thinking
Section titled “max_tokens ve thinking”Thinking tokenleri max_tokens bütçesinden tüketilir. Thinking açıkken düşük bir max_tokens değeri
verilirse model yanıt üretemeden token limitine ulaşabilir.
Önerilen minimum max_tokens değerleri:
| Durum | Önerilen minimum |
|---|---|
| Thinking açık, kısa soru | 1 500 |
| Thinking açık, karmaşık soru | 4 000+ |
Thinking kapalı (:fast) | 256 |
Thinking kapalıyken düşünce tokeni harcanmaz; standart token sayısı yeterlidir.
Faturalama
Section titled “Faturalama”Thinking tokenleri de çıktı tokeni olarak faturalandırılır.
Maliyeti düşürmek için :fast suffix kullanarak thinking’i devre dışı bırakabilirsiniz.
Daha fazla bilgi için Faturalama sayfasına bakın.