Генерирането на текст към изображение е горещият алгоритмичен процес в момента с OpenAI Пастел (бивш DALL-E мини) и Изображение на Google AI отприщва приливни вълни от чудесно странно процедурно генерирано изкуство, синтезирано от човешко и компютърно въображение. Във вторник Meta разкри, че също е разработила двигател за генериране на изображения с изкуствен интелект, който се надява да помогне за изграждането на потапящи светове в Metaverse и създаването на високо дигитално изкуство.

Много работа за създаване на изображение, базирано само на фразата „има кон в болницата”, когато използвате AI поколение. Първо самата фраза се захранва чрез модел на трансформатор, невронна мрежа, която анализира думите на изречението и развива контекстуално разбиране на тяхната връзка една с друга. След като разбере същността на това, което потребителят описва, AI ще синтезира ново изображение, използвайки набор от GAN (генеративни състезателни мрежи).

Благодарение на усилията през последните години за обучение на ML модели на все по-разширяващи се набори от изображения с висока разделителна способност с добре подбрани текстови описания, днешните най-съвременни AI могат да създават фотореалистични изображения на повечето глупости, с които ги нахраните. Конкретният процес на създаване се различава между ИИ.

Мета AI

Например Imagen на Google използва дифузионен модел, „който се научава да преобразува модел от произволни точки в изображения“ на юни Ключова дума блог. „Тези изображения първо започват с ниска разделителна способност и след това прогресивно се увеличават.“ Parti AI на Google, от друга страна, „първо преобразува колекция от изображения в поредица от кодови записи, подобно на парчета от пъзел. След това дадена текстова подкана се превежда в тези кодови записи и се създава ново изображение.“

Въпреки че тези системи могат да създават почти всичко, което им е описано, потребителят няма никакъв контрол върху специфичните аспекти на изходното изображение. „За да реализираме потенциала на AI да тласне напред творческото изразяване“, заяви изпълнителният директор на Meta Марк Зукърбърг в блога във вторник, „хората трябва да могат да оформят и контролират съдържанието, генерирано от системата.“

„Проучвателна изследователска концепция за AI“ на компанията, наречена Създаване на сцена, прави точно това, като включва създадени от потребителя скици към своето генериране на текстови изображения, извеждайки изображение с размери 2048 x 2048 пиксела. Тази комбинация позволява на потребителя не само да опише какво иска в изображението, но и да диктува цялостната композиция на изображението. „Той демонстрира как хората могат да използват както текст, така и прости рисунки, за да предадат визията си с по-голяма специфичност, използвайки различни елементи, форми, подредби, дълбочина, композиции и структури“, каза Зукърбърг.

При тестване панел от човешки оценители избра преобладаващо изображението с текст и скица пред изображението само с текст като по-добре подравнено с оригиналната скица (99,54 процента от времето) и по-добре подравнено с оригиналното текстово описание в 66 процента от времето . За по-нататъшно развитие на технологията Meta сподели демонстрацията си Make-A-Scene с изтъкнати артисти с изкуствен интелект, включително София Креспо, Скот Итън, Александър Ребен и Рефик Анадол, които ще използват системата и ще предоставят обратна връзка. Няма информация кога изкуственият интелект ще бъде достъпен за обществеността.