Microsoft и Nvidia създават 105-слоен, 530 милиарден езиков модел с параметри, който се нуждае от 280 графични процесора A100, но все още е предубеден

Сподели
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Изображение: Microsoft

Nvidia и Microsoft се обединиха, за да създадат модела за генериране на естествен език Megatron-Turing, за който дуото твърди, че е „най-мощният монолитен трансформаторен езиков модел, обучен досега“.

Моделът на AI има 105 слоя, 530 милиарда параметри и работи на здрав суперкомпютърен хардуер като Selene.

За сравнение, хваленият GPT-3 има 175 милиарда параметри.

“Всяка реплика на модела обхваща 280 графични процесора NVIDIA A100, с 8-посочно нарязване на тензор в рамките на възел и 35-посочен паралелизъм на тръбопроводи през възли”, каза двойката в блог пост.

Моделът е обучен на 15 набора от данни, които съдържат 339 милиарда жетони, и е в състояние да покаже как по -големите модели се нуждаят от по -малко обучение, за да работят добре.

Необходимостта от работа с езици и образци от реалния свят обаче означаваше, че отново се появи стар проблем с AI: Bias.

„Докато гигантските езикови модели напредват най -съвременните постижения в генерирането на езици, те също страдат от проблеми като пристрастност и токсичност“, каза дуото.

“Нашите наблюдения с MT-NLG са, че моделът улавя стереотипи и отклонения от данните, върху които е обучен. Microsoft и Nvidia се ангажират да работят за решаването на този проблем.

“Нашите наблюдения с MT-NLG са, че моделът улавя стереотипи и пристрастия от данните, върху които е обучен. Microsoft и Nvidia се ангажират да работят за решаването на този проблем.”

Не беше толкова отдавна, че чатботът на Microsoft Тей стана пълен нацист за броени часове чрез взаимодействие в интернет.

Свързано покритие

Публикациите се превеждат автоматично с google translate

Източник: www.zdnet.com


Сподели
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •