Microsoft’un bu teknolojisi her şeyi değiştirecek

Microsoft, Phi-3-vision adlı küçük dil modeli ile mobil cihazlarda görüntü analizi yapmayı mümkün kılıyor. Bu yenilik, mobil cihaz kullanıcıları için devrim niteliğinde.

Microsoft’un bu teknolojisi her şeyi değiştirecek

Microsoft, Phi-3 ailesine yeni bir üye ekleyerek küçük dil modelleri serisini genişletiyor. Phi-3-vision adı verilen bu yeni model, sadece metin odaklı değil, aynı zamanda görüntüleri analiz edebilen ve anlayabilen çok modlu bir model olarak dikkat çekiyor.

Phi-3-vision, görüntülerdeki nesneleri tanıma konusunda üstün bir performans sergiliyor. 4,2 milyar parametreye sahip olan bu model, mobil cihazlar için tasarlandı ve genel görsel akıl yürütme görevlerinde oldukça başarılı. Kullanıcılar, Phi-3-vision'a görüntüler veya grafiklerle ilgili sorular sorabiliyor ve model bu sorulara detaylı ve bilgilendirici yanıtlar veriyor. Phi-3-vision, DALL-E veya Stable Diffusion gibi görüntü oluşturma araçlarından farklı olarak görüntü analizi ve kavrama konularında öne çıkıyor.

Microsoft, Phi-3-vision'ın tanıtımını, Phi-3 ailesinin en küçük üyesi olan 3,8 milyar parametreli Phi-3-mini'nin ardından gerçekleştirdi. Phi-3 ailesi şu anda Phi-3-mini, Phi-3-vision, 7 milyar parametreli Phi-3-small ve 14 milyar parametreli Phi-3-medium modellerini içeriyor.

Bu küçük modellere odaklanma eğilimi, yapay zeka geliştirmede büyüyen bir trendi yansıtıyor. Küçük modeller, daha az işlem gücü ve hafıza gerektirerek mobil cihazlar ve diğer kaynak kısıtlı ortamlar için ideal hale geliyor. Microsoft, bu yaklaşımın başarılarını Orca-Math modeliyle de görmüş durumda; bu model, matematik problemlerini çözmede daha büyük rakiplerinden üstün performans gösterdi. Phi-3-vision şu anda önizleme aşamasında olup, Phi-3 ailesinin diğer üyeleri (mini, small ve medium) Azure’un model kütüphanesi üzerinden erişime açık.

Phi-3-vision'ın çok modlu yetenekleri ve mobil uyumlu yapısı, Microsoft’un küçük ama güçlü yapay zeka modellerine olan bağlılığını ve bu alandaki yenilikçi yaklaşımını gözler önüne seriyor. Kullanıcıların görüntü analizi ihtiyaçlarını karşılayarak, daha geniş bir yelpazede akıllı çözümler sunmayı amaçlıyor.