Он слышит, видит и чувствует: Google запускает ИИ нового поколения

Он слышит, видит и чувствует: Google запускает ИИ нового поколения

Google представил искусственный интеллект нового уровня — он «видит», «слышит» и создаёт 3D-миры из фотографий. 

Корреспондент программы CBC News 60 Minutes протестировал новейшие достижения Google DeepMind — исследовательского центра искусственного интеллекта компании Google.

ИИ, который распознаёт образы, сочиняет истории, создаёт 3D-вселенные и обучается сам — больше не фантастика. DeepMind показывает, как искусственный интеллект переходит от простых помощников к сознательным агентам, способным взаимодействовать с миром почти как человек.

Главным героем репортажа стал ИИ-ассистент Astra, способный видеть и слышать с помощью камеры и микрофона, встроенных в очки. На улицах Лондона, рядом с штаб-квартирой DeepMind, журналист задал Astra вопрос:

«Что ты можешь рассказать об этом здании передо мной?»

ИИ мгновенно ответил:

«Это Coal Drops Yard — район с магазинами и ресторанами».

Позже, в художественной галерее, корреспондент показал Astra картину — и та моментально узнала её как «Автомат» Эдварда Хоппера. На вопрос о выражении лица героини на картине, ИИ охарактеризовал её как «задумчивую» и «одинокую». Более того, Astra тут же придумала целую историю:

«Холодный вечер, возможно, вторник. Женщина, может быть, её зовут Элеанор, сидит одна в кафе с чашкой горячего кофе. Она думает о будущем, стоит ли ей следовать за мечтой».

ИИ создаёт видео, игры и целые миры — из текста и одной фотографии

60 Minutes также показала впечатляющие результаты других проектов DeepMind:

Veo 2 — новая модель генерации видео.

Если в 2023 году ИИ мог с трудом сгенерировать нечеткое видео с «золотистым ретривером с крыльями», то теперь — по похожему текстовому запросу — система создала фотореалистичный ролик, где щенок с крыльями бегает по полю, а солнечный свет пробивается сквозь перья.

Genie 2 — ИИ-модель, создающая интерактивный 3D-мир из одной фотографии.

Исследователь Джек Паркер-Холдер показал, как изображение водопада в Калифорнии было преобразовано в виртуальную реальность — игрок может свободно перемещаться по локации, включая те места, которых не было на оригинальном фото.

В другом примере Genie превратила рисунок с рыцарем и тремя дверьми в игровую сцену: ИИ-рыцарь по команде поднялся по лестнице, а система в режиме реального времени дорисовывала окружающий мир.

Генеральный директор DeepMind Демис Хассабис объяснил, что цель таких технологий — создание «модели мира», которая может понять и воспроизводить окружающую реальность.

«Симулированные миры позволяют обучать ИИ почти без ограничений. Для роботов, например, собирать реальные данные — дорого и долго. Но в виртуальной среде — можно моделировать миллионы ситуаций», — сказал он.

Также обсуждается возможность использовать данные Google Street View, Earth и Maps, чтобы обогатить ИИ реальными географическими знаниями:

«Можно оживить фотографии из отпуска или изображения улиц, сделав их интерактивными и трёхмерными», — добавил Хассабис.

  •  
  •  
  •  
  •  
  •