Microsoft'un dört yeni AI modelinin test sonuçları
Microsoft Build 2026'da tanıttığı dört yeni yapay zeka modeli—MAI-Thinking-1, MAI-Image-2.5, MAI-Transcribe-1.5 ve MAI-Voice-2—OpenAI bağımlılığını azaltma planının yeni aşaması. Ancak bağımsız testler Microsoft'un iç değerlendirmelerindeki iddiaları doğrulamıyor. PCMag'in testi, MAI-Transcribe-1.5'in aynı ses dosyasında 13 hata yaptığını, Google Gemini'nin 6 hatayla bitirdiğini buldu. MAI-Image-2.5 üretilmiş görsellerde metni çarpıtıyor. MAI-Voice-2 dil seçeneklerine rağmen robot tınısı veriyor.
Şirketin summit'te açıkladığı yönelim bu modellerin ötesine uzanıyor. CEO Satya Nadella, geliştiricilerin artık tüm Windows PC'lerde—sadece Copilot+ donanımında değil—yerel AI inşa edebileceğini duyurdu. 16GB RAM tabanına oturan Copilot+ markası arka plana çekildi. Microsoft'un stratejisi tüm Windows cihazlarını AI dağıtım zemini olarak görmek.
Dört MAI modeli ve performans testleri
Microsoft Build 2026'da dört MAI modelini tanıttı:
- MAI-Thinking-1: Akıl yürütme odaklı büyük dil modeli. Microsoft'un iddiasına göre Surge'in kör değerlendirme testlerinde kullanıcılar bu modeli Claude Sonnet'e tercih etti. Ancak internete erişemiyor; Claude Sonnet bu özelliği sunuyor ve PCMag editörü karmaşık sorularda Sonnet'i daha kullanışlı buldu. - MAI-Image-2.5: Metin girdisinden görsel üreten model. Test sonuçlarında metin çarpık çıkıyor, özellikle karikatür ve diyagramlarda. - MAI-Transcribe-1.5: Ses dosyalarını metne dönüştüren model. Test ses dosyasında 13 hata yaptı; Gemini 6 hatayla bitirdi. - MAI-Voice-2: Metinden konuşma sentezleyen model. Farklı dil ve üslup seçenekleri sunmasına rağmen, üretilen ses robotik olarak tanımlanıyor.
Dört model de şu anda limited preview statüsündedir ve genel erişime açılmamıştır. Microsoft Playground üzerinden ücretsiz test edilebiliyor. Microsoft bu modelleri rakip laboratuvarlardan distilasyon olmadan sıfırdan eğittiğini iddia ediyor.
Bağımsız testlerin bulguları
PCMag editörü dört MAI modelini rakipleriyle karşılaştırdı:
Transkripsiyon doğruluğu: MAI-Transcribe-1.5 test dosyasında 13 hata, Gemini 6 hata yaptı. Ses tanıma, arka plan gürültüsü veya birden fazla konuşmacı olduğunda önem taşıyan bir metrik. Bu fark MAI-Transcribe-1.5'in üretim ortamında tercih edilmesi için açık bir neden sunmuyor.
Görsel metin kalitesi: MAI-Image-2.5 ile üretilen görsellerde metin çarpık çıkıyor. Karikatür, diyagram veya bilgilendirici grafiklerde bu sorun belirgin. Rakip modeller keskin ve okunabilir metin üretebiliyor. Tasarımcılar ve içerik oluşturucular için ciddi bir kullanılabilirlik sorunu.
Ses kalitesi: MAI-Voice-2 dil ve üslup özelleştirmesi sunmasına rağmen, üretilen ses "robotik" olarak nitelendirilmiş. Doğal konuşma kalitesine ulaşamıyor; podcast, müşteri hizmetleri ve erişilebilirlik uygulamaları için sınırlaması.
Microsoft'un iç testleriyle bağımsız sonuçlar arasındaki açıklama
Forbes'un aktardığına göre, Microsoft MAI-Thinking-1'in Anthropic'in Claude Opus 4.6 ile SWE-bench Pro'da eşleştiğini iddia ediyor. Surge'in kör testlerinde kullanıcıların bu modeli Claude Sonnet 4.6'ya tercih ettiğini söylüyor. Ancak bu testler Microsoft'un iç değerlendirmeleri ve bağımsız doğrulama yok.
PCMag'in gerçek kullanım senaryolarındaki testi farklı bir tablo gösteriyor: Claude Sonnet, karmaşık prompt'larda daha kullanışlı.
Microsoft'un Frontier Tuning tekniğinin bir örnekte görev tamamlama oranını %13'ten %87'ye çıkardığı iddiaları, hangi görev ve hangi koşullara ait olduğu açıklanmadan anlamlı bir karşılaştırma sağlamıyor.
Azure Cobalt 200'ün %50 performans iyileştirmesi ve Azure Fabric GPU'nun "üç rakip bulut veri ambarından yedi kat daha hızlı" çalıştığı iddiası yalnızca iç testlemeye dayanıyor. Açık benchmark, test metodu veya rakip isimleri belirtilmemiş.
Copilot+ markasından Windows ekosisteminin tamamına geçiş
Build 2026'da Microsoft, Copilot+ PC markasını ön plana çıkarmaktan kaçındı. CEO Nadella'nın açıkça belirttiği strateji: geliştiriciler artık yalnızca Copilot+ donanımlı cihazlar için değil, tüm Windows kurulu tabanı için yerel AI deneyimleri geliştirebilir.
Bunun nedeni donanım gerçekliğidir. Başlangıçta Copilot+ tanımı 16GB RAM'i gerektiriyordu; Apple, diğer OEM'ler ve Microsoft'un kendisi artık 8GB RAM'li güçlü cihazlar sunuyor. NPU (Neural Processing Unit) gerekliliği de sorgulanır hale geldi.
Microsoft bu değişimi Aion-1.0-Instruct adlı küçük dil modeliyle somutlaştırıyor. Bu model CPU'da ve daha az güçlü GPU'larda çalışıyor; Edge tarayıcısına entegre edilerek özetleme görevlerinde kullanılıyor. Build 2026'da tanıtılan OpenClaw tarzı AI ajanlar da Copilot+ donanım gerektirmiyor. Microsoft'un odağı özel AI donanımını satmaktan çok, AI altyapısını tüm Windows cihazlarda verimli şekilde çalıştırmaya kaydı.
Bu yönelim tüm Windows kullanıcılarına yaygın AI erişimi vaat ediyor. Aynı zamanda Copilot+ PC markasının ekonomik değerini sorgulatıyor: bir yıl önce premium kategorisi olarak konumlandırılan bu cihazlar artık "AI için yeterli herhangi bir Windows PC" dahil.
OpenAI bağımlılığının durumu
Microsoft'un yedi modelini sıfırdan eğittiğini duyurması, OpenAI ve Anthropic'e olan stratejik bağımlılığını azaltma planının yeni aşaması. Model ağırlıkları ve eğitim süreci Microsoft kontrolünde.
Pratik bağımlılık devam ediyor. Copilot ürününün üretim trafiğinin çoğunu hâlâ OpenAI ve Anthropic modelleri yürütüyor. MAI modelleri limited preview'da; henüz genel erişime açılmadı, ölçek testinden geçmedi, üretim API'si yok.
Microsoft stratejik bağımsızlık için temel oluşturuyor ama kısa vadede OpenAI/Anthropic ortaklığına muhtaç. Eğer bu modeller ölçek ve kalite açısından olgunlaşmazsa, şirket yıllarca bu geçiş döneminde kalabilir.
Bir başka açıdan, bu yatırım Microsoft'a maliyet pazarlığı gücü veriyor. Forbes'un aktardığı rakamlara göre Frontier Tuning tekniği, bir ön plan OpenAI modeline kıyasla 10 kat daha düşük maliyetle benzer sonuçlar elde edebiliyormuş. Doğruysa, Microsoft'un OpenAI'ın yüksek fiyatlandırmasına alternatif yaratması mümkün.
Sonuç: Hangi kullanıcılar MAI modellerini denesin
MAI modelleri şu aşamada test ve deney için uygun. Microsoft Playground üzerinden ücretsiz erişilebiliyor; geliştiriciler prototipleme aracı olarak kullanabilir.
Üretim sistemleri için hazır değiller. Transkripsiyon doğruluğu, görsel metin kalitesi ve ses sentezi performansında rakiplerin gerisinde olduğu bağımsız testlerle gösterildi.
Erken kullanım düşünebilecek kullanıcılar: - Microsoft ekosisteminde sıkı entegrasyon arayan kurumlar (Azure, Microsoft 365 kritikse) - Veri egemenliği nedeniyle üçüncü taraf modellere alternatif arayan geliştiriciler - Ölçekli işlemlerde Frontier Tuning tekniklerinden faydalanabilecek müşteriler
Şimdilik uzak durmalı olan senaryolar: - Yüksek doğruluk gerektiren transkripsiyon (podcast, sözlü içerik, hukuk, tıp kayıtları) - Metin içeren görsel üretimi (MAI-Image-2.5'teki metin bozulması sorunu çözülene kadar) - Doğal ses kalitesi arayan uygulamalar (MAI-Voice-2'nin robot tınısı kısıtlaması)
Kurumsal karar alıcılar ve geliştirici ekip liderleri için öneri: MAI modellerini Microsoft Playground'da test et, ancak üretim kararını PCMag gibi bağımsız testlerin ve kendi senaryolarının sonuçlarına dayandır. Doğruluk veya ses kalitesi kritikse, OpenAI, Google veya Anthropic modellerine yönelmek daha güvenli. Microsoft'un bu modelleri olgunlaştırmasını bekle ve genel erişim açıldığında yeniden değerlendir.