Ученые из Google Research представили научную работу по своему новому проекту GameNGen — игровому движку, созданного на базе искусственного интеллекта, который генерирует геймплей Doom на нейронной сети. С использованием технологии Stable Diffusion, ученые Дани Валевски, Янив Левиафан, Моаб Арар и Шломи Фрухтер разработали GameNGen, который обрабатывает предыдущие кадры и текущие действия игрока для создания новых кадров в игровом мире со впечатляющей визуальной точностью и целостностью.
Создание полноценного игрового движка на базе ИИ с логикой, соответствующей реальной игре — впечатляющее достижение. В Doom от GameNGen можно играть как в обычную игру: поворачиваться, двигаться в стороны, стрелять и получать урон от врагов и окружения. Уровни создаются в реальном времени по мере их исследования. ИИ даже точно отслеживает количество патронов в пистолете. Согласно исследованию, игра работает с частотой 20 кадров в секунду и на коротких отрезках практически неотличима от оригинального Doom.
Для создания тренировочных данных, необходимых для точного моделирования собственных уровней Doom, команда Google обучала своего ИИ-агента игре в Doom на всех уровнях сложности, имитируя различные уровни мастерства игроков. Действия, такие как сбор бонусов и завершение уровней, вознаграждались, в то время как получение урона или смерть приводили к наказаниям. Это помогло создать агентов, которые могли успешно играть в Doom, предоставляя сотни часов визуальных данных для обучения модели GameNGen.
Одним из значительных нововведений в этом исследовании стало поддержание целостности между кадрами при использовании Stable Diffusion в течение продолжительных периодов. Stable Diffusion — это популярная генеративная модель ИИ, которая создает изображения по текстовым или визуальным запросам и с момента своего появления в 2022 году использовалась в самых разных проектах — от анимации до порнографии.
Однако у Stable Diffusion есть два значительных недостатка при создании анимации: отсутствие целостности между кадрами и постепенная потеря визуальной четкости с течением времени. Это можно было видеть в короткометражке Anime Rock Paper Scissors от Corridor, где тени на лицах персонажей хаотично перемещались от кадра к кадру.
Чтобы решить эту проблему, Google Research использовали метод тренировки новых кадров на основе более длинной последовательности команд и предыдущих кадров, а не на одном изображении-запросе. Для этого ученые добавляли в контекстные кадры гауссовский шум. Затем отдельная, но связанная нейронная сеть исправляла эти контекстные кадры, обеспечивая постоянное самокорректирующееся изображение с высокой стабильностью на протяжении длительного времени.
Хотя результаты GameNGen пока не идеальны — на экране появляются размытые пятна, мертвые враги превращаются в нечеткие массы, а сам персонаж на HUD постоянно дергает бровями — это демонстрирует впечатляющий первый шаг в создании совершенно нового игрового движка, который будет работать на принципах, не имеющих ничего общего с нынешними технологиями.
Одно из преимуществ сгенерированной графики в том, что на визуализацию кадра уходит одинаковое количество времени — независимо от того, насколько реалистичная, комплексная и комплексная картинка.
Естественно, это не значит, что с развитием подхода движки больше не будут нужны.