Proje Defteri

🔢 LLM Token Sayacı

GPT ve Claude için metninizin tahmini token sayısını anında görün — sonuç OpenAI tiktoken'a göre kalibre edilmiştir. Her şey tarayıcınızda çalışır, metniniz hiçbir yere gönderilmez.

GPT-4o / GPT-4.1 / o-serisi (o200k_base kodlaması). OpenAI tiktoken'a göre yaklaşık ±%10.

0
Tahmini token
0
Karakter
0
Kelime
0
UTF-8 bayt
⚠️ Bu bir tahmindir. Gerçek token sayısı, modelin kendi BPE tokenizer'ına göre değişir. Kesin değer için ilgili modelin resmî tokenizer'ını kullanın. Bu araç hiçbir sağlayıcının resmî sayacı değildir.
≈ $0.000000

Fiyatı kendi modelinize göre düzenleyin (ör. GPT-4o giriş ≈ $2.50/1M). Tüm rakamlar yaklaşıktır ve yalnızca giriş (input) token'larını kapsar.

Token Sayacı (LLM Token Tahmin Aracı) Nedir?

Token sayacı, bir metnin büyük dil modelleri (LLM) tarafından kaç token'a bölüneceğini tahmin eden ücretsiz bir araçtır. GPT, Claude ve Llama gibi modeller metni doğrudan harf harf değil, alt kelime (subword) parçaları hâlinde işler. Bu parçalama işlemine tokenizasyon denir ve genellikle BPE (byte pair encoding) algoritmasıyla yapılır. API maliyetiniz, modelin bağlam penceresine sığıp sığmadığınız ve yanıt hızı doğrudan token sayısına bağlı olduğu için token tahmini, yapay zekâ ile çalışan herkes için kritik bir adımdır. Bu araçtaki tüm hesaplamalar tarayıcınızda yapılır; yazdığınız metin hiçbir sunucuya gönderilmez.

Nasıl çalışır? (Şeffaf yöntem)

Bu araç, sayfayı yavaşlatacak megabaytlarca BPE sözlüğü indirmez. Bunun yerine metni, gerçek GPT tokenizer'larının kullandığı ön-bölütleme (pre-tokenization) desenine yakın bir desenle kelime, sayı, noktalama ve boşluk parçalarına ayırır; ardından parça sayısı ile UTF-8 bayt sayısını, OpenAI'ın resmî tiktoken kütüphanesine (o200k_base ve cl100k_base) karşı kalibre edilmiş doğrusal bir formülde birleştirir: token ≈ a·parça + b·bayt. Katsayılar (a, b) Türkçe, İngilizce ve kod örnekleri üzerinde gerçek tiktoken çıktısına göre ayarlanmıştır. UTF-8 bayt kullanıldığı için Türkçe karakterler (ç, ğ, ı, ö, ş, ü — her biri 2 bayt) token maliyetini otomatik olarak yansıtır.

Ne kadar doğru?

GPT modelleri için bu tahmin, gerçek tiktoken sayısına genellikle %10 dolayında yaklaşır (o200k_base daha isabetli, cl100k_base Türkçede biraz daha sapmalı). Claude için ise durum farklıdır: Anthropic herkese açık bir tokenizer yayınlamaz, bu yüzden Claude değeri yalnızca kaba bir tahmindir. Kesin Claude token sayısı yalnızca Anthropic'in messages/count_tokens API ucuyla alınabilir (bu işlem ağ ve API anahtarı gerektirir; metniniz dışarı çıktığı için bu araç onu kullanmaz). Faturalandırma kararlarında her zaman sağlayıcının resmî sayısına güvenin. Not: GPT için doğru olan tiktoken, Claude için kullanılmamalıdır — Claude token'larını %15–20 oranında yanlış sayar.

Örnek

"Yapay zeka modelleri metni token olarak okur." cümlesi GPT-4o (o200k) için yaklaşık 11 token tahmin edilir (gerçek tiktoken değeri 13). Aynı cümle daha eski cl100k kodlamasında Türkçe karakterler yüzünden daha da fazla token tutar. 1M giriş token başına $2.50 fiyatla 11 token'ın maliyeti ≈ $0.0000275 olur — yani tek bir kısa çağrının maliyetini API'ye istek atmadan önce görebilirsiniz.

İpuçları ve doğru beklentiler

Sıkça Sorulan Sorular

Token sayacı sonucu tam doğru mu?

GPT modelleri için oldukça yakındır: araç, metni parçalara ayırıp parça ve UTF-8 bayt sayısını OpenAI tiktoken'a göre kalibre edilmiş bir formülde birleştirir ve gerçek sayıya genellikle %10 dolayında yaklaşır. Claude için sonuç kaba bir tahmindir (herkese açık tokenizer yoktur). Faturalandırma için her zaman sağlayıcının resmî sayısını kullanın.

Token nedir ve neden önemlidir?

Token, dil modellerinin metni işlerken kullandığı en küçük birimdir; çoğunlukla bir kelimeden küçük alt parçalardır. İngilizcede bir token ortalama ~4 karakterdir. API maliyeti, bağlam penceresi sınırı ve hız token sayısına bağlı olduğu için token tahmini önemlidir.

Türkçe metinler neden daha fazla token kullanır?

Tokenizer'lar ağırlıklı olarak İngilizce ile eğitildiğinden, Türkçe gibi eklemeli dillerde kelimeler daha çok alt parçaya bölünür. Türkçe karakterler ve uzun ek zincirleri kelime başına token sayısını artırır.

Metnim bir sunucuya gönderiliyor mu?

Hayır. Araç tamamen tarayıcınızda çalışır; hiçbir API çağrısı yapılmaz ve metniniz hiçbir yere gönderilmez.