Системите за машинно обучение бършат пода със своите човешки опоненти вече повече от десетилетие (сериозно, първата победа на Watson Jeopardy беше през 2011 г.), въпреки че видовете игри, в които превъзхождат, са доста ограничени. Обикновено състезателни настолни или видео игри, използващи ограничено поле за игра, последователни ходове и поне един ясно дефиниран противник, всяка игра, която изисква разбиване на числа, е в тяхна полза. Дипломацията обаче изисква много малко изчисления, вместо това изисква играчите да преговарят директно с опонентите си и да правят съответни игри едновременно – неща, които съвременните ML системи обикновено не са създадени да правят. Но това не е попречило на изследователите на Meta да проектират AI агент, който може да преговаря за глобални политически позиции, както и всеки посланик на ООН.
В сряда изследователите на Meta AI обявиха, че са преодолели тези недостатъци на машинното обучение с CICERO, първият AI, който показва производителност на човешко ниво в дипломацията. Екипът обучи Cicero по 2,7 милиарда параметъра в хода на 50 000 рунда в webDiplomacy.net, онлайн версия на играта, където завърши на второ място (от 19 участници) в турнир от 5 игри на лигата, като същевременно удвои повиши средния резултат на опонентите си.
Агентът с изкуствен интелект се оказа толкова умел „в използването на естествен език за преговори с хора в дипломацията, че те често предпочитаха да работят с CICERO пред други човешки участници“, отбеляза екипът на Meta в съобщение за пресата в сряда. „Дипломацията е игра за хора, а не за фигури. Ако агентът не може да разпознае, че някой вероятно блъфира или че друг играч би видял определен ход като агресивен, той бързо ще загуби играта. По същия начин, ако не говори като истински човек – проявявайки съпричастност, изграждайки взаимоотношения и говорейки добре за играта – няма да намери други играчи, желаещи да работят с нея.”
По същество Cicero съчетава стратегическия начин на мислене от Pluribot или AlphaGO със способностите за обработка на естествен език (NLP) на Blenderbot или GPT-3. Агентът дори е способен на предварителна мисъл. „Цицерон може да заключи например, че по-късно в играта ще се нуждае от подкрепата на конкретен играч и след това да изработи стратегия, за да спечели благоволението на този човек – и дори да разпознае рисковете и възможностите, които този играч вижда от своята конкретна точка на изглед”, отбеляза изследователският екип.
Агентът не се обучава чрез стандартна схема за обучение с подсилване, както правят подобни системи. Екипът на Meta обяснява, че това би довело до неоптимална производителност, тъй като „разчитането само на контролирано обучение за избор на действия въз основа на минал диалог води до агент, който е относително слаб и силно използваем“.
Вместо това Цицерон използва “итеративен алгоритъм за планиране, който балансира последователността на диалога с рационалността.” Първо ще прогнозира играта на опонентите си въз основа на това, което се е случило по време на кръга на преговорите, както и каква игра смята, че опонентите му смятат, че ще направи, преди „итеративно да подобри тези прогнози, като се опита да избере нови политики, които имат по-висока очаквана стойност, като се има предвид другата прогнозираните политики на играчите, като същевременно се опитваме да запазим новите прогнози близо до първоначалните прогнози за политиката.” Лесно, нали?
Системата все още не е устойчива на глупаци, тъй като понякога агентът ще стане твърде умен и ще се разпадне играе себе си като заемат противоречиви преговорни позиции. Въпреки това представянето му в тези ранни изпитания превъзхожда това на много човешки политици. Meta планира да продължи да развива системата, за да „служи като безопасна пясъчна кутия за напредък в изследванията на взаимодействието между човек и AI“.
Публикациите се превеждат автоматично с google translate