Гласовете в Alexa Alexa, Google Assistant и други асистенти на AI са далеч пред GPS устройствата от старата школа, но все още им липсват ритмите, интонацията и други качества, които правят речта да звучи, добре, човешка. NVIDIA представи нови изследвания и инструменти, които могат да уловят тези естествени речеви качества, като ви позволят да тренирате AI системата със собствен глас, съобщиха от компанията на Междуреч 2021 конференция.

За да подобри своя синтез на глас от AI, екипът за изследване на текст в реч на NVIDIA разработи модел, наречен RAD-TTS, печеливш участък на състезанието за излъчване на NAB за изготвяне на най-реалистичния аватар. Системата позволява на индивида да обучава модел на текст в реч със собствения си глас, включително темпото, тоналността, тембъра и др.

i
Това съдържание не е достъпно поради вашите предпочитания за поверителност. Друга функция на RAD-TTS е гласовото преобразуване, което позволява на потребителя да предаде думите на един говорител, използвайки гласа на друг човек. Този интерфейс дава фин контрол на ниво кадър върху височината, продължителността и енергията на синтезиран глас.

Използвайки тази технология, изследователите на NVIDIA създадоха по-разговорно звучащо гласово разказване Аз съм AI поредица от видеоклипове използвайки синтезирани, а не човешки гласове. Целта беше разказът да съответства на тона и стила на видеоклиповете, нещо, което не е направено добре в много видеоклипове с разказ на AI досега. Резултатите все още са малко роботизирани, но по -добри от всеки разказ за AI, който някога съм чувал.

“С този интерфейс нашият продуцент на видео може да се запише да чете видео сценария, а след това да използва AI модела, за да преобразува речта си в гласа на женския разказвач. Използвайки тази базова история, продуцентът може да насочи AI като гласов актьор – промяна синтезираната реч за подчертаване на конкретни думи и промяна на темпото на разказа, за да се изрази по -добре тона на видеото “, пише NVIDIA.

NVIDIA разпространява част от това изследване-оптимизирано, за да работи ефективно на графични процесори NVIDIA, разбира се-на всеки, който иска да го изпробва чрез отворен код чрез инструментариума NVIDIA NeMo Python за ускорен графичен процесор AI, достъпен в центъра на контейнерите на компанията NGC и друг софтуер.

“Няколко от моделите са обучени с десетки хиляди часове аудио данни на системите NVIDIA DGX. Разработчиците могат да настроят фино всеки модел за техните случаи на използване, ускорявайки обучението, използвайки смесена прецизност на изчисленията на NVIDIA Tensor Core графични процесори”, пише компанията .

Източник: www.engadget.com

Публикациите се превеждат автоматично с google translate


Сподели