OpenAI, основаната от Илон Мъск стартираща компания за изкуствен интелект зад популярния DALL-E генератор на текст към изображение, обяви във вторник пускането на най-новата му машина за създаване на картини POINT-E, която може да създава 3D облаци от точки директно от текстови подкани. Докато съществуващите системи като DreamFusion на Google обикновено изискват няколко часа — и графични процесори — за генериране на своите изображения, Point-E се нуждае само от един графичен процесор и минута или две.
3D моделирането се използва в различни индустрии и приложения. CGI ефектите на съвременните филмови блокбъстъри, видеоигрите, VR и AR, мисиите на НАСА за картографиране на лунни кратери, проектите на Google за опазване на обекти с наследство и визията на Meta за Metaverse, всичко това зависи от възможностите за 3D моделиране. Въпреки това, създаването на фотореалистични 3D изображения все още е процес, който отнема ресурси и време, въпреки работата на NVIDIA за автоматизиране на генерирането на обекти и мобилното приложение RealityCapture на Epic Game, което позволява на всеки с iOS телефон да сканира обекти от реалния свят като 3D изображения.
Системи за преобразуване на текст в изображение като DALL-E 2 и Craiyon на OpenAI, DeepAI, Lensa на Prisma Lab или Stable Diffusion на HuggingFace, бързо набраха популярност, известност и скандал през последните години. Text-to-3D е издънка на това изследване. Point-E, за разлика от подобни системи, „използва голям набор от двойки (текст, изображение), което му позволява да следва разнообразни и сложни подкани, докато нашият модел от изображение към 3D се обучава на по-малък набор от данни от (изображение, 3D) двойки”, пише изследователският екип на OpenAI, ръководен от Алекс Никол Point·E: Система за генериране на 3D облаци от точки от сложни подкани, публикуван миналата седмица. „За да произведем 3D обект от текстова подкана, първо вземаме проба от изображение, използвайки модела текст към изображение, и след това вземаме проба от 3D обект, обусловен от извадковото изображение. И двете стъпки могат да бъдат изпълнени за няколко секунди, и не изискват скъпи процедури за оптимизация.”

Ако трябваше да въведете текстова подкана, да речем „Котка, която яде бурито“, Point-E първо ще генерира 3D изобразяване на синтетичен изглед на котката, която яде бурито. След това ще прекара това генерирано изображение през поредица от дифузионни модели, за да създаде 3D, RGB облак от точки на първоначалното изображение – първо създавайки груб модел на облак от 1024 точки, след това по-фин от 4096 точки. „На практика приемаме, че изображението съдържа съответната информация от текста и не обуславяме изрично облаците от точки върху текста“, посочва изследователският екип.
Всеки от тези дифузионни модели беше обучен на “милиони” 3d модели, всички конвертирани в стандартизиран формат. „Въпреки че нашият метод се представя по-зле при тази оценка от най-съвременните техники“, признава екипът, „той произвежда проби за малка част от времето.“ Ако искате да го изпробвате сами, OpenAI е публикувал проектите с отворен код Github.
Публикациите се превеждат автоматично с google translate