1.5 Dolarlık Eğitimle Transformer'lardan 100 Kat Verimli: HRM-Text Modeli Büyük Dil Modellerine Karşı Durdu

Bir araştırma ekibi, 16 GPU üzerinde 1.9 günde, yalnızca 1.5 dolar hesaplama maliyetiyle eğitilen 1 milyar parametreli bir dil modeli geliştirdi ve bu model, MMLU benchmark'inde %60.7 doğruluk oranıyla 2-7 milyar parametreli Transformer modellerle yarışabilecek sonuçlar verdi. HRM-Text olarak adlandırılan model, standart Transformer mimarisini terk ederek hiyerarşik tekrarlayan (hierarchical recurrent) bir yapı kullanıyor ve bu sayede aynı performans için 96-432 kat daha az tahmini hesaplama gerektiriyor.

Bu gelişme, yapay zeka modellerinin eğitim maliyetine ilişkin varsayımlara meydan okuyor. Trilyonlarca token üzerinde eğitilen ve milyonlarca dolar hesaplama maliyeti gerektiren Transformer tabanlı modeller, endüstri standardı olarak kabul edilirken, HRM-Text'in 40 milyar token kullanarak ulaştığı sonuçlar, mimari tasarımın ham veri hacminden daha önemli olabileceğini gösteriyor.

Hiyerarşik tekrarlayan mimari nasıl çalışıyor?

HRM-Text'in temel farkı, hesaplamayı iki ayrı katmana ayırmasında yatıyor: yavaş evrimleşen stratejik (H-modül) ve hızlı evrimleşen yürütme (L-modül) katmanları. Bu ayrışım, geleneksel Transformer'ların tek bir dikkat mekanizması içinde yürüttüğü tüm işlemleri fonksiyonel olarak bölmeye dayanıyor.

H-modül, uzun bağlamda strateji oluşturma ve yüksek seviye akıl yürütme görevlerini üstlenirken, L-modül token bazında hızlı tahminler yapıyor. Bu yapı, özellikle 1 milyar parametre seviyesinde standart tekrarlayan mimarilerin yaşadığı istikrar sorunlarını çözüyor. Geleneksel RNN ve LSTM tabanlı yaklaşımlar bu ölçekte dil görevlerinde tutarsız hale gelirken, HRM mimarisi MagicNorm normalizasyon ve ısınma eğitimi (warm-up training) teknikleriyle bu engeli aşıyor.

Bu mimari tercih, modelin hesaplama verimliliğini doğrudan etkiliyor. Transformer modelleri her token için tüm dikkat ağırlıklarını yeniden hesaplarken, HRM-Text'in tekrarlayan yapısı önceki durumları saklayarak işlem yükünü azaltıyor. Ancak bu tasarımın doğası gereği, HRM-Text paralel işlemede Transformer'lar kadar verimli değil—eğitim süresinde hız kazancı sağlamıyor ama çıkarım (inference) aşamasında bellek ve işlem gücü tasarrufu sunuyor.

Transformer modellerine kıyasla hesaplama verimliliği

HRM-Text'in en çarpıcı iddiası, Qwen, Gemma ve Llama gibi Transformer tabanlı modellere kıyasla 96-432 kat daha az tahmini hesaplama kullanarak benzer performans sağlamasıdır. Bu oran doğrudan token sayısına dayanıyor: HRM-Text 40 milyar token kullanarak eğitilirken, karşılaştırılan modellerin çoğu trilyonlarca token üzerinde eğitilmiş.

Bu fark, iki farklı eğitim stratejisini yansıtıyor. Transformer modelleri genellikle ham internet metinleriyle ön eğitim (pretraining) alıyor ve daha sonra talimat verileriyle ince ayar yapılıyor. HRM-Text ise baştan itibaren talimat-yanıt çiftleri kullanarak eğitilmiş. Bu tercih, modelin bellek yerine akıl yürütme üzerine odaklanmasını sağlıyor.

1.5 dolarlık eğitim maliyeti yalnızca GPU kullanım saatini kapsıyor ve elektrik, soğutma, veri hazırlama, depolama ve yinelemeli deneme maliyetlerini içermiyor. Yine de, GPT-3 ölçeğindeki modellerin milyonlarca dolar gerektirdiği düşünülürse, HRM-Text'in başlangıç maliyeti akademik ve küçük araştırma ekipleri için erişilebilir bir seviyede kalıyor.

Ancak bu verimlilik, bazı tavizlerle geliyor. Modelin 1 milyar parametre sınırında tutulması, daha büyük ölçekte aynı sonuçların garanti edilmediği anlamına geliyor. HRM mimarisinin 10 milyar veya 100 milyar parametrede nasıl performans göstereceğine dair net veri yok.

Benchmark performansı: MMLU, GSM8K ve MATH sonuçları

HRM-Text, üç temel benchmark'te rekabetçi sonuçlar elde etti: MMLU'da %60.7, GSM8K'de %84.5 ve MATH'de %56.2. Bu puanlar, 2-7 milyar parametreli Transformer modellerinin ortalama performansına yakın.

MMLA (Massive Multitask Language Understanding), geniş bir genel bilgi ve akıl yürütme seti olduğundan, %60.7'lik bir skor HRM-Text'in çok sayıda farklı bilgi alanında tutarlı tahmin yapabildiğini gösteriyor. GSM8K'deki %84.5 skoru ise matematiksel soru çözme yeteneğinin güçlü olduğuna işaret ediyor. Ancak MATH benchmark'i, daha ileri seviye matematiksel akıl yürütme gerektirdiğinden, %56.2'lik sonuç, modelin daha karmaşık soyut problemlerde sınırlarının bulunduğunu gösteriyor.

Ek olarak, DROP benchmark'inde %81.1 puan aldı ve bu test kümesinde sıfır kontaminasyon sağlandı. Bu, modelin ezberleme yerine gerçek anlama kapasitesiyle puan aldığını gösteriyor—eğitim verisinde benchmark sorularını görmediği doğrulandı.

Bu sonuçlar, HRM-Text'in genel amaçlı bir temel model (foundation model) olarak kullanılabileceğini gösteriyor ama sınırları net. Modelin tasarımı, veritabanı belleklemek yerine dış bilgi alımına dayanarak çalışmak üzere optimize edilmiş. HRM-Text, kendisi kılavuz gibi çalışmaktan ziyade, bilgiyi dışarıdan alıp işleyen bir akıl yürütme çekirdeği olarak konumlandırılmış.

Bu tasarım felsefesi, kurumsal kullanım senaryolarında avantaj sağlayabilir. Örneğin, bir şirket kendi özel veritabanıyla entegre bir dil modeli kullanmak istiyorsa, HRM-Text gibi düşük maliyetli bir temel modeli kendi verisiyle birleştirerek çalıştırabilir ve büyük bir Transformer modeli eğitmekten kaçınabilir.

Sınırlamalar ve ölçeklenebilirlik soruları

HRM-Text'in sonuçları etkileyici olsa da, bu modelin üretim ortamında yaygınlaşmasının önünde birkaç belirsizlik var.

İlk olarak, ölçeklenebilirlik konusunda net veri yok. 1 milyar parametrede istikrar sağlayan MagicNorm normalizasyonunun 10 milyar veya 100 milyar parametrede de aynı şekilde çalışacağına dair kanıt sunulmamış. Transformer mimarisinin yaygınlaşmasının temel nedenlerinden biri, ölçeklenebilirliğinin öngörülebilir olması. HRM mimarisinin aynı garantiyi sunup sunmadığı belirsiz.

İkinci olarak, üretim istikrarı test edilmemiş. Akademik benchmarklar kontrollü test ortamlarında yapılıyor ama gerçek dünya kullanıcı etkileşimlerinde, özellikle çok dönüşlü sohbetlerde veya belirsiz taleplerde, modelin nasıl performans göstereceği bilinmiyor. Transformer tabanlı modellerin endüstride tercih edilmesinin bir nedeni de bu tür senaryolarda test edilmiş olmaları.

Üçüncü olarak, paralelleştirme dezavantajı var. Transformer modelleri dikkat mekanizmalarını paralel işleyebilirken, tekrarlayan mimariler doğası gereği sıralı çalışıyor. Bu, büyük ölçekli eğitim için önemli bir engeldir. HRM-Text'in 1.9 günlük eğitim süresi 16 GPU'da oldukça düşük görünse de, bu süre tekrarlayan mimarilerin hiper-paralel eğitim stratejilerinden yararlanamadığı için ölçekleme yaparken artabilir.

Tekrarlayan mimariler Transformer baskınlığını kırabiliyor mu?

HRM-Text'in asıl katkısı, trilyonlarca token üzerinde eğitimin her zaman gerekli olmadığını göstermesidir. Endüstride tekrarlayan mimariler konusundaki önyargı, LSTM ve GRU gibi eski yapıların Transformer'ların başarısının ardından gözden düşmesiyle oluştu. Ancak HRM-Text, tekrarlayan mimarilerin hala yenilik potansiyeline sahip olduğunu gösteriyor. MagicNorm gibi normalizasyon teknikleri ve ısınma eğitimi stratejileri, tekrarlayan yapıların 1 milyar parametre seviyesinde istikrar sorununu çözebilir.

Bu çalışmanın yapay zeka topluluğuna vereceği pratik katkı, henüz açık kaynak koduyla paylaşılıp paylaşılmayacağına bağlı. Eğer model ağırlıkları ve eğitim altyapısı yayımlanırsa, akademik araştırma ekipleri ve ölçeklenmeyen startuplar bu mimariy kendi kullanım senaryolarına göre uyarlayabilir. Kod kapalı kalırsa, bu gelişme yalnızca akademik bir yayın olarak kalır.

Öte yandan, HRM mimarisinin 10 milyar parametreye ölçeklenmesi ve gerçek dünya uygulamalarında istikrarı, bu modelin uzun vadeli etkisini belirleyecek. Eğer ölçekleme başarılı olup açık kaynak topluluk tarafından benimsenir, yapay zeka modeli geliştirme maliyetleri düşebilir ve akademik ekipler için giriş engelleri azalabilir. Ancak şu anda, bu durum henüz teorik seviyede kalmıştır.

1.5 Dolarlık Eğitimle Transformer'lardan 100 Kat Verimli: HRM-Text Modeli Büyük Dil Modellerine Karşı Durdu