Въпреки че не е напълно готов да въведе бъдещето на Doolittle, което всички чакахме, съвременните методи за превод на AI се оказват повече от достатъчни за прецизното трансформиране на приблизително 6500 говорими и писмени комуникационни системи на човечеството помежду си. Проблемът е, че всеки от тези модели обикновено изпълнява само една или две задачи наистина добре – превежда и преобразува текст в реч, реч в текст или между който и да е от двата набора – така че в крайна сметка трябва да разбиете куп модели отгоре един от друг, за да създадете общото представяне, което се вижда в Google Translate или безбройните езикови услуги на Facebook.

Това е изчислително интензивен процес, така че Meta разработи един единствен модел, който може да направи всичко. SeamlessM4T е „основополагащ многоезичен и многозадачен модел, който безпроблемно превежда и транскрибира реч и текст“, се казва в блога на Meta от вторник. Той може да превежда между всеки от почти 100 езика за функциите говор към текст и текст към текст, говор към говор и текст към говор поддържа същите тези езици като входове и ги извежда на всеки от 36 други езика, включително английски.

В своя блог публикация изследователският екип на Meta отбелязва, че SeamlessM4T „значително се подобрява[s] производителност за езиците с нисък и среден ресурс, които поддържаме”, като същевременно поддържаме “силна производителност на езици с висок ресурс, като английски, испански и немски.” Meta изгради SeamlessM4T от съществуващата си базирана на PyTorch многозадачна архитектура на модел UnitY, която вече изпълнява нативно различните модални преводи, както и автоматично разпознаване на реч. Той използва Система BERT 2.0 за аудио кодиране, разбиване на входове в техните компонентни токени за анализ, и a HiFi-GAN модул вокодер за генериране на устни отговори.

Meta също е куратор на масивен паралелен корпус от реч към реч и реч към текст с отворен код, наречен SeamlessAlign. Компанията изкопа „десетки милиарди изречения“ и „четири милиона часа“ говор от публично достъпни хранилища, за да „автоматично приведе в съответствие повече от 443 000 часа говор с текстове и да създаде около 29 000 часа подравнявания говор към говор“, на блогът. При тестване за здравина, SeamlessM4T според съобщенията е превъзхождал своя (текущ най-съвременен) предшественик спрямо фоновите шумове и вариациите в стила на високоговорителите съответно с 37 процента и 48 процента.