Meta'nın yeni çok modlu tercümanı 100 dili konuşmak için tek bir model kullanıyor

Her ne kadar hepimizin beklediği Doolittle geleceğine öncülük etmeye henüz hazır olmasa da, modern yapay zeka çeviri yöntemleri, insanlığın birbirleri arasındaki yaklaşık 6.500 sözlü ve yazılı iletişim sistemini doğru bir şekilde dönüştürmede fazlasıyla yeterli olduğunu kanıtlıyor.

Sorun şu ki, bu modellerin her biri yalnızca bir veya iki görevi gerçekten iyi yapma eğiliminde (metni konuşmaya, konuşmayı metne veya iki gruptan herhangi biri arasında tercüme etme ve dönüştürme).

Hepsini aynı anda yapabilme yeteneği hesaplama açısından çetrefilli bir süreç olduğundan Meta, bunu yapabilecek tek bir model geliştirdi. Meta'nın salı günkü blogunda, SeamlessM4T'nin "konuşma ve metin boyunca sorunsuz bir şekilde tercüme eden ve yazıya aktaran temel, çok dilli ve çok görevli bir model" olduğu yazıyor.

Meta'nın yeni çok modlu tercümanı 100 dili konuşmak için tek bir model kullanıyor

“Konuşmayı metne ve metinden metne işlevleri için yaklaşık 100 dilden herhangi biri arasında çeviri yapabilir; konuşmadan konuşmaya ve metinden konuşmaya, giriş olarak aynı dilleri destekler ve bunları diğer 36 dilden herhangi birinde çıktı olarak verir. İngilizce dahil.”

Meta, SeamlessM4T'yi, otomatik konuşma tanımanın yanı sıra çeşitli modal çevirileri zaten yerel olarak gerçekleştiren mevcut PyTorch tabanlı çok görevli UnitY model mimarisinden oluşturdu. Ses kodlaması için BERT 2.0 sistemini kullanır, analiz için girdileri bileşen belirteçlerine ayırır ve sesli yanıtlar oluşturmak için bir HiFi-GAN birimi ses kodlayıcısını kullanıyor.

Facebook ve Instagram sonunda pes etti
Twitter paylaşımlarda önemli bir yeniliğe gidiyor!
Teknoloji ve Stil Buluşuyor: Fitness Eğitmeni Gözünden Huawei Watch GT 5 Deneyimi
Sonraki Haber