DeepMind использует видео, чтобы познавать мир

Последний проект Google DeepMind — научить ИИ понимать, что происходит в мире. Для этого он обратился к обширному каталогу видеофайлов, которые помогут ему понять мир, в котором он живет.

До сих пор все проекты DeepMind по искусственному интеллекту были направлены внутрь себя, чтобы понять, как искусственный интеллект может писать, интерпретировать виртуальную среду, классифицировать изображения или даже понимать трудности движения. Но на этот раз команда DeepMind научила ИИ смотреть наружу и понимать, что происходит в реальном мире, частью которого он теперь является.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Проект позволяет ИИ научиться распознавать ряд визуальных и аудиоконцепций, просматривая небольшие фрагменты видео. На данный момент он понимает, что значит косить газон или кого-то щекотать, но ни на одном этапе обучения его не учили словам, описывающим то, что он видит или слышит. Он понимает эти действия сам по себе.

Точно так же, как DeepMind научил ИИ интерпретировать свое окружение через сеть ассоциаций символов и концепций, команда, ведущая этот проект DeepMind идет по аналогичному пути. Вместо того, чтобы использовать метки для обучения ИИ тому, что представляет собой каждый объект, на который он смотрит, этот проект DeepMind учится сам, потому что он учится распознавать изображения и звуки, сопоставляя их с тем, что он может видеть и слышать.

Этот метод обучения почти в точности похож на то, как люди думают и учатся понимать окружающий мир.

Алгоритм начинался как две отдельные нейронные сети: одна занималась распознаванием изображений, другая — аудио. В сети изображений показывались кадры из видео, а звук обрабатывался 1-секундными клипами из той же точки видео, где была показана сеть изображений. ИИ был обучен на 60 миллионах пар неподвижного видео и аудио, взятых из 400 000 видеороликов.

Третья сеть затем сравнила эти изображения с аудиоклипами, чтобы узнать, какие звуки соответствуют каким видеокадрам. Благодаря этому он затем научился распознавать аудио и визуальные концепции, включая толпу, чечётку и бегущую воду, даже не получая для такой концепции специального ярлыка. Это не означает, что он внезапно узнал слова, описывающие такое действие, вместо этого это означало, что вы можете показать ему, например, новую фотографию, на которой кто-то аплодирует, и он будет знать, что к нему должен подойти отрывок с аплодисментами.

Такой вид самообучения без присмотра дает ИИ инструменты для работы в реальном мире, узнавая о том, что происходит вокруг него, на основании того, что он видит и слышит. Эта мысль может беспокоить некоторых людей, но на данный момент вы можете быть спокойны, зная, что все, что происходит в штаб-квартире DeepMind, происходит далеко от Интернета и фактически взаимодействует с реальным миром.

Однако это лишь один из способов роботы могли бы научиться восставать и порабощать нас всех.

Чему Google DeepMind уже научил ИИ

Google DeepMind интерпретирует окружающее как ребенок

deepmind_learning

Стремясь ускорить то, как DeepMind может решать проблемы и справляться со сложными ситуациями, Google обратился за вдохновением к человеческому разуму. Обучая DeepMind использовать концептуальные инструменты для решения проблем, как это делает человеческий мозг, он может научиться с легкостью решать широкий спектр проблем.

Команда Google DeepMind резюмирует это следующим образом: пример о том, как мы создаем объекты из сырья, чтобы создавать инструменты, решающие проблемы – например, строим счеты из глины, тростника и дерева, чтобы помочь считать большие числа. Однако разум ИИ так не думает.

ИИ сохраняет знания, но традиционно не может совершить мысленный скачок и объединить знакомые концепции во что-то совершенно новое и необычное. Однако теперь, благодаря новому компоненту нейронной сети, называемому сетью ассоциаций символов и концепций (SCAN), ИИ DeepMind может имитировать человеческое зрение, чтобы понимать иерархию визуальных концепций.

В своей новой статье с резким названием «СКАН: Изучение абстрактных иерархических композиционных визуальных концепций» команда DeepMind описывает, как им удалось воспроизвести мыслительные процессы, подобные человеческим, в мозгу ИИ.

По сути, DeepMind теперь думает с точки зрения понимания визуального мира, как это делает человеческий ребенок. Его диапазон обзора ограничен, и объекты попадают в его поле зрения. Он интерпретирует такой объект, как яблоко, шляпа или чемодан, с точки зрения его физических свойств – цвета, формы, размера – и даже его положения и освещения в пространстве.

Затем DeepMind объединяет это с лексическим подтверждением и описаниями того, что он видит. Итак, если это красное яблоко на синей стене, исследователи скажут ИИ, что он видит «красное яблоко». Синяя стена». Это означает, что ИИ DeepMind не просто смотрит на яблоко и сравнивает его с другими изображениями яблок, хранящимися в архиве изображений. Он узнает, как на самом деле выглядит яблоко.

SCAN знает, что представляет собой каждый компонент, а также базовый объект чемодана — он понимает, как отличить объекты друг от друга. Поэтому, когда его просят создать бессмысленный объект, известный как «вуг», SCAN создает то, как, по его мнению, должен выглядеть вуг, на основе уже изученной информации. Судя по всему, это зеленый объект, расположенный на розовом полу перед желтой стеной.

Google DeepMind научился ходить

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

DeepMind удалось научиться ходить, что почти наверняка заставит скептиков искусственного интеллекта занервничать. Это не означает, что суперкомпьютер встает и бегает по офису DeepMind, но это означает, что ИИ понимает, как работает ходьба, а также искусство самобалансирования и контроля движений.

Вы можете подумать, что это не так уж и сложно по сравнению с различными шагающими роботами Boston Dynamic, но то, что задумал DeepMind, выходит далеко за рамки этого.

Вместо того, чтобы просто говорить роботу, как ходить, ИИ DeepMind учится понимать цифровые конечности. Он учится ходить, понимать собственную инерцию и физическое пространство, чтобы справляться с задачами в сложных условиях. Именно поэтому люди способны лазить по скалам и преодолевать препятствия, а также нормально ходить по улице – мы созданы не для какой-то одной цели.

Традиционно обучение робота ходьбе требовало ввода в систему данных захвата движения. Это не только не позволяет ИИ легко адаптироваться к новой ситуации, но и своевременно. DeepMind удалось научить ИИ идти вперед, не падая, а также научиться преодолевать разнообразные цифровые ландшафты, для преодоления которых требовалось бегать, прыгать, поворачиваться и приседать.

В другом эксперименте команда DeepMind также обнаружила, что ИИ научился естественным образом переходить между двумя разными стилями ходьбы без какого-либо вмешательства человека.

И SCAN, и исследование изученного движения были совершенно отдельными проектами DeepMind, но оба они указывают на новую эру развития ИИ. Вместо того, чтобы просто кормить машину информацией для анализа, она изучает окружающий мир так же, как это делает человеческий разум.

Понятно, что это довольно пугающая мысль и одна из причин, по которой Илон Маск хочет большего регулирования развития ИИ. Тем не менее, нет ничего более жуткого, чем наблюдать, как ИИ притворяется, что ходит как человек…

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *