GPT-4 става с 30% по-точен, когато бъде помолен да се самокритикува

Сподели

Дори ако малко вероятният шестмесечен мораториум върху разработването на AI продължи, изглежда, че GPT-4 има способността за огромни скокове напред, ако просто се вгледа добре в себе си. Изследователите критикуваха собствената си работа на GPT за 30% увеличение на производителността.

„Не всеки ден хората разработват нови техники за постигане на най-съвременни стандарти, използвайки процеси на вземане на решения, за които някога се е смятало, че са уникални за човешкия интелект“, пишат изследователите Ноа Шин и Ашвин Гопинат. “Но точно това направихме.”

Техниката “Reflexion” използва вече впечатляващата способност на GPT-4 да извършва различни тестове и въвежда “рамка, която позволява на AI агентите да емулират човешка саморефлексия и да оценят нейната ефективност.” Ефективно той въвежда допълнителни стъпки, в които GPT-4 проектира тестове, за да критикува собствените си отговори, търсейки грешки и погрешни стъпки, след което пренаписва своите решения въз основа на това, което е намерил.

При теста за кодиране на HumanEval, GPT-4 премина от 67% до 88% точност, впечатляващ скок, използвайки самоотразяващи вериги

Северозападен университет/MIT

Екипът използва своята техника срещу няколко различни теста за ефективност. В теста HumanEval, който се състои от 164 програмни проблема на Python, които моделът никога не е виждал, GPT-4 отбеляза рекордните 67%, но с техниката Reflexion резултатът му скочи до много впечатляващите 88%.

В теста Alfworld, който предизвиква способността на AI да взема решения и да решава многоетапни задачи чрез изпълнение на няколко различни допустими действия в различни интерактивни среди, техниката Reflexion повиши производителността на GPT-4 от около 73% до почти перфектните 97 %, неуспех само на 4 от 134 задачи.

В друг тест, наречен HotPotQA, езиковият модел получи достъп до Wikipedia и след това получи 100 от възможни 13 000 двойки въпрос/отговор, които „предизвикват агентите да анализират съдържанието и да разсъждават върху няколко подкрепящи документа“. В този тест GPT-4 отбеляза само 34% точност, но GPT-4 с Reflexion успя да се справи значително по-добре с 54%.

Все по-често решението на проблемите с AI изглежда е повече AI. В някои отношения това изглежда малко като генеративна враждебна мрежа, в която два AI взаимно усъвършенстват уменията си, като единият се опитва да генерира изображения, например, които не могат да бъдат разграничени от „реалните“ изображения, а другият се опитва да каже фалшивите от истинските. Но в този случай GPT е както писателят, така и редакторът, който работи за подобряване на собствената си продукция.

Много подредено!

Хартията е достъпна на Arxiv.

източник: Нано мисли чрез AI обяснено



Публикациите се превеждат автоматично с google translate

Loading


Сподели