Xilinx и Numenta твърдят драстично ускоряване на невронните мрежи спрямо графичните процесори на Nvidia

Резултати от бенчмарк тестове, предлагани от Xilinx и Numenta за FPGA на Xilinx за две стандартни задачи за машинно обучение AI, Google Speech Commands и ImageNet. И в двата случая оста Y е мярка за пропускателна способност, думи в секунда в случай на Google Speech Commands и изображения в секунда в случай на ResNet-50 в ImageNet, където по-високата лента е по-добрият резултат, защото е равен на по-голям пропускателна способност.

Xilinx

Numenta, фирмата за изкуствен интелект в Силициевата долина, основана от създателя на Palm Pilot Джеф Хокинс, успя да постигне драстично ускорение в конвенционалните невронни мрежи с помощта на програмируеми логически устройства на Xilinx, каза Виктор Пенг, изпълнителен директор на Xilinx ZDNet в интервю в петък чрез Zoom.

Ускорението предлага порядъци на подобрение в сравнение с индустрията в тежка категория, чиповете на Nvidia, твърди Xilinx в бенчмарк тестове.

“Постигаме фактори за подобрение и побеждаваме графичния процесор”, каза Пенг, обсъждайки бенчмарковете, които компанията проведе с Numenta. Мярката за успех е пропускателната способност, която обучените невронни мрежи могат да изпълняват.

Xilinx е в процес на придобиване от Advanced Micro Devices за $ 34 милиарда долара, сделка, обявена миналия октомври. Сделката е одобрена от акционерите на двете компании, е в разгара на процеса на одобрение от Европейския съюз и се очаква да приключи до края на тази година.

Xilinx предложи време с Peng като обща информация за напредъка в Xilinx, докато транзакцията е в ход.

xilinx-victor-peng-on-zoom-may-2021.jpg

„Хората винаги говорят за TOPS, TOPS, TOPS“, казва главният изпълнителен директор на Xilinx Виктор Пенг, позовавайки се на статистически данни за машинно обучение на benchark. „TOPS говори само за пиковата ефективност на пътя ви към данни.“

Xilinx

Ефективността на бенчмарка, извършена от Xilinx и Numenta, е направена на два общи теста за бенчмарк на алгоритми за машинно обучение.

Първият беше Google Speech Commands, набор от данни, въведен от Google през 2017 г. за тестване на разпознаването на реч. Вторият беше ResNet-50, алгоритъм за разпознаване на изображения, използван в популярния набор от данни ImageNet.

Също така: AI променя целия характер на изчисленията

Графичният процесор на Xilinx Alveo, каза Пен, успя да постигне 100-кратно увеличение на количеството пропускателна способност по отношение на думи, разпознати правилно в секунда в теста на Google Speech, спрямо графичния процесор на Nvidia V100. Данните бяха разкрити от Numenta още през ноември.

Тестът ImageNet на ResNet-50 не е бил разкрит преди това от никоя от страните. В този случай пропускателната способност в изображения в секунда, разпозната, се ускори три пъти в частта Xilinx, наречена Versal, в сравнение с частта Nvidia T4.

numenta-white-paper-sparsity-enable-50x-performance-acceleration-in-deep-learning-мрежи-страница-20.jpg

Numenta

Една част от производителността идва от това, което Xilinx нарича „AI Engine“ или AIE, което представлява набор от преконфигурируеми вериги, които могат да ускорят основните операции на невронните мрежи, умножаването на вектори и матрици, представящи входни данни и тегло стойности, съответно.

Също толкова важно е, че и в двата теста способността за изкуствен интелект на чиповете Xilinx е подпомогната от учените от Numenta, водени от Subutai Ahmad, ръководител на изследвания и инженеринг на Numenta.

Numenta провежда изследвания на мозъка, по-специално на най-младата част на мозъка, неокортекса, който изпълнява когнитивните функции на по-високо ниво при бозайниците, включително зрителното възприятие. Основателят Хокинс е писал за сложния начин, по който може да функционира неокортексът, начин, много различен от конвенционалните форми на дълбоко обучение на ИИ.

Също: Любовно писмо до мозъка: в новата си книга за ИИ Джеф Хокинс е влюбен в мислите

Въпреки тази разлика, Numenta, под ръководството на Ахмад, едновременно се опитва да превърне знанията за неокортекса в използваеми алгоритми, за да ускори дълбокото обучение.

Прозрението на Numenta беше да премахне някои нулеви числа от умноженията на матрицата, подход, който е все по-често срещан, наречен рядкост. Премахването на необходимостта от изчисляване на нулеви стойности намалява общата изчислителна тежест на чипа.

numenta-white-paper-sparsity-enable-50x-performance-acceleration-in-deep-learning-мрежи-страница-25.jpg

Както обясни Ахмад ZDNet през декември, “Нещото, което сме направили с хардуера, е да използва разредността, за да увеличи ефективността на изчисленията.”

“В невронните мрежи всичко се случва с тези матрични продукти и ако умножите две числа заедно, ако едното число е нула, можете да пропуснете това умножение, тъй като резултатът ще бъде нула, така че можете да пропуснете голям процент от умноженията. ”

Внедряванията на рядкост в чиповете Xilinx, каза Ахмад, означават „можем да проектираме схемите, които да бъдат създадени по поръчка за оскъдни мрежи“.

Разредената мрежа на потребителския чип може не само да бъде по-бърза, но и да бъде компактно пространствено, каза Ахмад, “и така можем да пускаме повече от тях на чип.”

„Можем да управляваме двадесет от тези мрежи на чипа срещу четири плътни мрежи, така че когато умножите всичко, пълният чип е петдесет пъти по-бърз, отколкото бихте могли да получите с гъста мрежа.“

Числата, предлагани от Peng, са един вид отговор на числа, обичайно обвързани от Nvidia, която има тенденция да доминира в измерванията на производителността на невронната мрежа.

Тези показатели за производителност, от които трилиони операции в секунда, или TOPS, са критикувани от някои, че не представляват реални задачи, а само за да изпомпват резултатите на Nvidia.

“Хората винаги говорят за TOPS, TOPS, TOPS”, каза Пън. „TOPS говори само за пиковата ефективност на пътя ви към данни.“

„Това, от което действително зависи производителността на приложението, е не само пътят на данните, но и паметта, и това как се движи паметта.“

Също: За размножаване на задачи за ИИ е необходим стартов комплект от Xilinx, малко програмиране

Възможността да персонализирате неща като механизми за пропускане на паметта позволява на чиповете Xilinx да “получат по-добра реална, устойчива производителност, дори ако не спечелим теоретичен връх TOPS номер.”

„В AI се справяме наистина добре“, каза Пен.

Залогът на Xilinx е, че продукти като Versal ще спечелят сделки, защото правят повече от AI. Въпреки че AIE е ключова съставка, чиповете Xilinx могат да се справят добре при ускоряване на други задачи, а не само на линейната алгебра, което компанията нарича „ускоряване на цялото приложение“.

„Дори и да не сме победителите в AI в даден случай, макар че в някои случаи сме, все пак можем да предоставим по-добро потребителско изживяване в цялото приложение“, каза той, „и мисля, че това е, което има значение.

Публикациите се превеждат автоматично с google translate

Източник: www.zdnet.com