Gemma 4'ün hızlanma hilesi: Açık kaynak AI'ı telefonda 3 kat daha çabuk çalıştırıyor

Google'ın açık kaynak Gemma 4 modelleri, yayınlandığı ilkbaharda birkaç hafta içinde 60 milyonun üzerinde indirildi. Bu sayının arkasında yatan neden, Multi-Token Prediction (MTP) adı verilen ve modellerin çıkarım hızını kalite kaybı olmadan 3 kata kadar artıran bir teknik. Pixel telefonlardan Apple Silicon'a uzanan cihaz yelpazesinde ölçülen kazanımlar, açık kaynak yapay zekanın tüketici donanımında nihayet pratik hale geldiğine dair somut kanıt sunuyor.

MTP spekülatif kod çözmeyle bellek bant genişliği darboğazını kırıyor

Büyük dil modellerinin çıkarım hızındaki asıl kısıtlama, GPU veya NPU hızı değil, bellek bant genişliği. Standart otoregresif üretimde model, her token için tüm ağırlıklarını bellekten yükler, yalnızca tek bir token tahmin eder ve sonraki token için süreci tekrarlar. Bu "bellekten oku, az işle" döngüsü, hesaplama birimleri çoğu zaman atıl beklerken bellek yolunu tıkar.

MTP tekniği bu sorunu çözmek için spekülatif kod çözme stratejisi kullanır. Gemma 4 için 74 milyon parametrelik hafif bir draft model, ana modelden önce çalışır ve birkaç sonraki token'ı tahmin eder. Ardından ana model tek bir forward geçişte tüm draft token'ları paralel olarak doğrular. Draft model yanıldığında, ana model hatalı token'ı reddeder ve kendi ürettiği token'la devam eder. Draft doğru tahmin ettiyse, birden fazla token tek geçişte onaylanmış olur ve bellek erişimi başına üretilen token sayısı katlanır.

Bu yaklaşımın kalite üzerindeki etkisi teorik olarak sıfır olmalıdır, çünkü tüm nihai kararlar ana model tarafından verilir. Hafif model yalnızca "öneri" sunar; ana model her öneriyi kendi olasılık dağılımıyla kontrol eder ve uyumsuz tahminleri atar. Pratikte, draft model ana modelin davranışını ne kadar iyi tahmin ederse, kabul oranı o kadar yüksek olur ve hız kazancı o kadar büyür.

Pixel'de 3,1x, Apple M4'te 2,5x: Gerçek hız rakamları

Google'ın yayınladığı benchmark'lar, hız kazanımlarının cihaz mimarisi ve model boyutuna göre değiştiğini gösteriyor. Pixel telefonlarda Edge TPU'lar üzerinde çalışan E2B (2 milyar parametre) ve E4B (4 milyar parametre) modelleri sırasıyla 2,8x ve 3,1x hızlanma sağlıyor. Bu, bir Pixel telefonun dakikada üretebileceği token sayısını neredeyse üçe katlıyor demek.

Masaüstü tarafında Apple M4 çipi üzerinde 31 milyar parametreli Gemma 4 modeli 2,5x hızlanma elde ediyor. Daha ilginç olan, mixture-of-experts mimarisine sahip 26 milyar parametreli modelin Apple Silicon'da batch boyutu 4-8 arasında yaklaşık 2,2x hız artışı göstermesi. MoE modelleri zaten her inference'ta yalnızca parametrelerin bir alt kümesini aktifleştirir; MTP'nin bu mimari üzerinde bile %120 kazanç sağlaması, tekniğin farklı model yapılarıyla uyumunu gösteriyor.

Apache 2.0 lisansı: Gemma 4'ün ticari erişilebilirliği

Gemma ailesinin önceki sürümleri, kullanım şartları ve türev çalışmalara kısıtlamalar getiren özel bir lisans altında dağıtılıyordu. Gemma 4 ve MTP drafter'ları Apache 2.0 lisansı altında yayınlanıyor. Bu geçiş, modelin ticari uygulamalarda ve türev ürünlerde kullanımını kolaylaştırıyor; şirketler model ağırlıklarını değiştirebilir, dahili hizmetlere entegre edebilir ve yalnızca Apache lisansının yükümlülüklerine uymak zorunda kalır.

Apache 2.0'ın yalnızca açık kaynak topluluğunun idealizminden kaynaklanmadığını varsaymak makul. 60 milyonluk indirme sayısı, Gemma 4'ün yayınlandığı birkaç hafta içinde PyTorch, TensorFlow ve JAX ekosistemlerinde hızla referans haline geldiğini gösteriyor. Bu yaygın benimseme, Google Cloud üzerinde model inference trafiğini artırabilir ve gelecekte benzer tekniklerin Gemini gibi ticari modellerde kullanımı için zemin hazırlayabilir.

Çerçeve desteği geniş: MTP hemen kullanıma hazır

MTP drafter'larının erişilebilirliği, teknik evraktan ibaret değil. Hafif draft modeller MLX, VLLM, SGLang ve Ollama gibi popüler çıkarım çerçeveleri aracılığıyla hazır halde dağıtılıyor. Bu çerçevelerin her biri farklı kullanım senaryolarına hitap ediyor: MLX Apple Silicon üzerinde yerel hızlandırma sağlarken, VLLM batch inference için optimize edilmiş bir sunucu çözümü, Ollama ise tek komutla yerel model çalıştırmayı kolaylaştıran bir CLI aracı.

Hugging Face ve Kaggle gibi platformlarda model ağırlıklarının doğrudan bulunması, araştırmacılar ve geliştiriciler için başlangıç eşiğini ortadan kaldırıyor. Bir geliştirici pip install transformers komutundan sonraki adımda MTP-etkin Gemma 4 modelini indirebilir ve hız kazanımlarını kendi donanımında doğrulayabilir. Bu hazır erişim, tekniğin benimsenmesini haftalar yerine günler içinde gerçekleştiriyor.

Çerçeve desteği aynı zamanda bir performans garantisi anlamına gelir. VLLM gibi production-grade sunucular, MTP'yi batch scheduling, KV cache yönetimi ve dinamik quantization ile birleştirerek gerçek dünya dağıtımlarında hızın korunmasını sağlar. SGLang ise structured generation senaryolarında MTP'nin JSON veya kod üretimi gibi kısıtlı çıktılarla nasıl birleşeceğini gösteriyor.

Mobil cihazlarda yerel AI artık yalnızca demo değil

Pixel telefonlarda 3x hız kazanımı, yapay zeka uygulamalarının gerçek zamanlı kullanıcı etkileşimlerinde çalışabilir hale geldiği anlamına geliyor. Bir mesajlaşma uygulamasında önerilen yanıt taslakları, fotoğraf düzenleme yazılımında doğal dil komutları veya sesli asistan sorgularının cihazda işlenmesi—bunların hepsi birkaç saniyelik gecikme ile mümkün hale geliyor. Kullanıcılar, verilerin sunucuya gönderilmesi yerine telefonlarında işlenmesini istiyor; MTP bu talebi karşılamanın teknik yolunu açıyor.

Yerel çıkarımın stratejik avantajı gizliliktir, ancak pratik avantajı gecikme ve maliyettir. Bulut API'si her inference çağrısında ağ gecikmesi eklerken, cihaz üzerinde çalışan model yalnızca hesaplama süresine bağlıdır. Toplu çıkarım yapan bir uygulama için, bulut API maliyeti kullanıcı başına aylık birkaç doları bulabilir; yerel model ise yalnızca cihazın batarya ve bellek kaynaklarını tüketir.

2,8x hızlanan bir 2 milyar parametreli model, GPT-4 veya Claude 3.5 Opus gibi yüz milyarlarca parametreli modellerin yeteneklerini taşımıyor. Ancak çoğu tüketici uygulaması—e-posta önerileri, altyazı üretimi, basit soru-cevap—büyük modellerin tam kapasitesini gerektirmiyor. Gemma 4 gibi küçük modeller, bu görevlerde "yeterince iyi" performans gösterirken enerji ve maliyet açısından büyük tasarruf sağlıyor.

MTP kullanımı başlangıç noktaları: Model, çerçeve ve domain seçimi

Kendi donanımınızda MTP'den faydalanmak istiyorsanız, başlangıç noktası model boyutunu ve çerçeveyi doğru seçmektir. Eğer MacBook Pro M4 veya benzer bir Apple Silicon cihazınız varsa, MLX çerçevesiyle başlayın; Apple M4 üzerinde 31B modelinde 2,5x kazanç ölçüldü. Linux sunucularda VLLM, batch boyutları ile hız kazanımını optimize etmenizi sağlar; batch size 4-8 aralığında MoE modellerinde 2,2x hızlanma görüldü.

Geliştirici tarafında dikkat edilecek nokta, draft model kabul oranını izlemektir. MTP'nin verimliliği, draft modelin ana modelin bir sonraki token seçimini ne kadar doğru tahmin ettiğine bağlı. Farklı domainlerde (kod, tıbbi metin, konuşma dili) kabul oranları değişir; eğer draft model ana modelle uyumsuz tahminler üretiyorsa, doğrulama maliyeti kazancı götürebilir. Hugging Face'te yayınlanan draft modeller genel amaçlı eğitilmiş; spesifik bir alan için fine-tune edilmiş bir draft model daha yüksek kabul oranı sağlayabilir.

Teknik olarak MTP drafter'ı eğitme ve doğrulama pipeline'ı açık kaynak olarak kullanılabilir. Llama, Mistral ve Phi gibi başka model ailelerine uyarlanabilir; bu önümüzdeki aylarda çeşitli modellerde benzer hız kazanımları getirmeyi mümkün kılar.

Gemma 4'ün hızlanma hilesi: Açık kaynak AI'ı telefonda 3 kat daha çabuk çalıştırıyor

MTP spekülatif kod çözmeyle bellek bant genişliği darboğazını kırıyor

Pixel'de 3,1x, Apple M4'te 2,5x: Gerçek hız rakamları

Apache 2.0 lisansı: Gemma 4'ün ticari erişilebilirliği

Çerçeve desteği geniş: MTP hemen kullanıma hazır

Mobil cihazlarda yerel AI artık yalnızca demo değil

MTP kullanımı başlangıç noktaları: Model, çerçeve ve domain seçimi

Okumaya devam et

YouTube Artık Sadece Video Aramıyor: Ask YouTube, Google’ın Doğruluk Sınavı

Sıcak tonun soğuk hesabı: Empati eğitimi yapay zekayı neden daha yanlış yapar?

OpenAI, Qualcomm ve MediaTek'le AI telefon çipi geliştiriyor—Jony Ive'ın 6,4 milyar dolarlık projesinin gerçek yüzü ortaya çıktı