Нейросеть MuZero учится «на ходу»: что это, благо или зло?

Artemida

4 года назад

Британская компания DeepMind, которая специализируется на разработках в сфере искусственного интеллекта, представила агента ИИ MuZero. В кратчайшие сроки его обучили игре в десятки видеоигр Atari, шахматы и настольные игры типа Go.

Нейросеть MuZero учится «на ходу»: что это, благо или зло?

В отличие от своих предшественников, этот инновационный бот самостоятельно вырабатывает своё поведение в игре. MuZero работает с использованием особой техники, в которой многоуровневые нейросети позволяют машинам обучаться новым навыкам методом проб и ошибок, получая специфическое «вознаграждение» за успех. Кроме того, при разработке MuZero использовалась самообучающаяся программа DQN, которая достигла высокого уровня мастерства в видеоиграх Atari. Также были задействованы:

AlphaGo, программа, которая победила чемпиона Go Ли-Седола со счетом 4:1 в соревновании 2016 года;
AlphaGo Zero, которая превзошла AlphaGo по производительности в 2017 году после обучения с нуля и была ознакомлена только с основными правилами игры;
AlphaZero формата Go, шахмат и сёга.

Бот MuZero использовал для прохождения игр меньше шагов (действий). Эти достижения в очередной раз доказывают, что «спецагент» MuZero способен эффективно извлекать больше информации из меньшего количества данных.

Венди Холл (Wendy Hall), профессор компьютерных наук в Университете Саутгемптона и член правительственного совета по ИИ, отметил, что новая система со временем сможет добиться «сверхчеловеческой производительности», а данная работа является «значительным шагом вперед», что одновременно обнадеживает и пугает. Сейчас агент MuZero работает над созданием алгоритма кодирования видео, который ускорит YouTube

Источник:
DeepMind