В Google создали ИИ, способный с нуля пройти любую видеоигру

Программа, разработанная «гугловским» подразделением DeepMind, умеет с нуля проходить видеоигры и во многих случаях превосходит лучших геймеров. Как отмечают исследователи, разработанный ими искусственный интеллект следует отличать от программы Deep Blue, обыгравшей Гарри Каспарова в шахматы в 1997 году. Если в ИИ «шахматиста» правила игры были заложены изначально, то детище подразделения Google обучается побеждать самостоятельно.

Система компьютерного самообучения получила название Deep-Q-Network (DQN). В ней были объединены два типа машинного обучения. Первый из них использует архитектуру мозга, в которой связи между слоями искусственных нейронов укрепляются по мере приобретения опыта. Этот тип, называемый глубинным обучением (deep-learning systems), — система восприятия, принцип работы которой напоминает зрение животных: программа проводит глубокий анализ пикселей на экране после совершенных ею действий.  Нечто похожее сейчас используется в Google Translator и в алгоритме поиска по картинкам. Второй тип машинного обучения называется обучением с закреплением (reinforcement learning). Это математический аналог обучения с подкреплением (или поощрением), вдохновленный биологической системой дофаминового вознаграждения, благодаря которой люди и животные осваивают новые навыки: каждое новое эффективное действие получает поощрение. В случае DQN наградой являются очки в игре: пробуя различные действия, система запоминает те комбинации, которые приносят максимум очков.

Другими словами, новизна разработки заключается в том, что алгоритм DeepMind способен обучаться новым видеоиграм без каких-либо первоначальных данных. Чтобы освоить новый навык, ему просто нужно немного времени: искусственный интеллект анализирует пиксели, распознает объекты на экране и одновременно пытается понять логику игры. Программа совершает случайные действия и смотрит, как они влияют на полученные очки. По итогам своих наблюдений искусственный интеллект формирует стратегию поведения. По сути, программа DeepMind ничем не отличается от хорошего геймера: она тоже обладает навыком анализирования, умением учиться на своих ошибках и стремлением к победе.

2014-12-24_0151

На понимание особенностей новой игры у искусственного интеллекта уходит порядка 600 попыток или около двух недель. По результатам эксперимента ИИ успешно освоил набор из 49 игр, состоящий из шутеров, гонок и сайд-скроллеров. Во многих случаях программа придумала такие стратегии прохождения, которые исследователи даже не могли себе представить! Если раньше искусственный интеллект всегда проигрывал человеку в играх наподобие Breakout или Space Invaders, где для получения рекордного счета необходимо искать сложные стратегии, то DQN сумела обыграть живых экспертов в 60% игр: она набрала на треть больше очков в Space Invaders и Pong, а в Breakout и Video Pinball — больше вo впечатляющие 200 раз!

Процесс обучения лучше всего продемонстрирован на примере вышеупомянутой Breakout. Поначалу ИИ часто пропускает мяч, но по мере накопления опыта понимает, что наиболее выгодная стратегия — это пробивание структуры по бокам и запуск мяча в нишу за ней, чтобы он там постоянно отбивался и крушил блоки, набирая максимум очков.

Однако игры 80-х — это всего лишь «полигон». Разработчики не собираются останавливаться на достигнутом и намерены обучить DQN играть в более сложные игры, например, WarСraft и StarCraft. В отдаленной же перспективе исследователи планируют создать искусственный интеллект, который бы совершал действия в новой игре, исходя из опыта уже пройденных игр. Так поступают дети: научившись играть в Pong, легче освоить Breakout.

«Когда-нибудь беспилотные летательные аппараты Google будут учиться водить на основе собственного опыта и людям не будет необходимости их учить», — говорит Демис Хасаби, соучредитель и вице-президент DeepMind Google. — Мы надеемся, что наша разработка послужит не только развлечением, но и поможет развитию фундаментальной науки. Поскольку алгоритм построен по образу и подобию человеческого мозга, он может помочь неврологам и психологам в изучении интеллекта и процесса принятия решений».

Помимо этого, подобные исследования, с точки зрения их авторов, могут быть использованы как для маркетинговых исследований, так и для решения непредвиденных проблем, возникающих при взаимодействии умных роботов с окружающей средой. Как видно, данное достижение может найти применение в самых различных сферах человеческой деятельности.googleguideК примеру, одно из обыденных применений – тренировка персонального помощника. Такой помощник сможет изучить предпочтения хозяина и запланировать маршрут путешествия с учетом интересных для человека мест; сделать покупки, которые могут ему понравиться; забронировать транспорт или номер в отеле. Ну и захватить мир, само собой.

Have your say!

0 0

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Lost Password

Please enter your username or email address. You will receive a link to create a new password via email.