Мeta представи своя AI Make-a-Scene за генериране на текст към изображение през юли, който като Dall-E и По средата на пътуването, използва алгоритми за машинно обучение (и масивни бази данни от изчерпани онлайн произведения на изкуството), за да създаде фантастични изображения на писмени подкани. В четвъртък главният изпълнителен директор на Meta Марк Зукърбърг разкри по-анимационния съвременник на Make-a-Scene, Make-a-Video.

Както подсказва името му, Make-a-Video е „нова AI система, която позволява на хората да превръщат текстовите подкани в кратки, висококачествени видеоклипове“, написа Зукърбърг в блог на Meta в четвъртък. Функционално, Video работи по същия начин, както Scene – разчитайки на комбинация от обработка на естествен език и генеративни невронни мрежи за преобразуване на невизуални подкани в изображения – просто изтегля съдържание в различен формат.

„Нашата интуиция е проста: научете как изглежда светът и как е описан от сдвоени текстови данни и научете как се движи светът от неконтролирани видеозаписи“, пише екип от изследователи на Meta в изследователска статия, публикувана в четвъртък сутринта. Това позволи на екипа да намали времето, необходимо за обучение на видео модела и да елиминира необходимостта от сдвоени текстови и видео данни, като същевременно запази „необятността (разнообразие в естетически, фантастични изображения и т.н.) на днешните модели за генериране на изображения. ”

Както при повечето изследвания на Meta за AI, Make-a-Video се пуска като проект с отворен код. „Искаме да обмислим как изграждаме нови генеративни AI системи като тази“, отбеляза Зукърбърг. „Ние открито споделяме тези генеративни AI изследвания и резултати с общността за тяхната обратна връзка и ще продължим да използваме нашата отговорна AI рамка, за да усъвършенстваме и развием нашия подход към тази нововъзникваща технология.“

Както при привидно всеки генериращ AI, който се пуска, възможността за злоупотреба с Make-a-Video не е малка. За да изпревари всякакви потенциални престъпни шенагии, изследователският екип превантивно почисти набора от данни за обучението Make-a-Video за всякакви NSFW изображения, както и токсични фрази.