Почему «мультимодальный ИИ» сейчас является самой популярной вещью в сфере технологий

Почему «мультимодальный ИИ» сейчас является самой популярной вещью в сфере технологий

Как поклонник технологий и искусственного интеллекта, я очень рад видеть последние достижения в области мультимодального искусственного интеллекта от OpenAI и Google. Последние два года мы были очарованы моделями искусственного интеллекта, способными обрабатывать текст, но теперь игра изменилась. Основное внимание уделяется созданию моделей искусственного интеллекта, которые могут плавно переключаться между звуком, видео и текстом, делая наше взаимодействие с ними более естественным и человеческим.


Как геймер, я внимательно слежу за последними технологическими новостями, и на этой неделе OpenAI и Google действительно превзошли сами себя. В течение последних двух лет между технологическими компаниями шла острая конкуренция за создание все более интеллектуальных моделей искусственного интеллекта. Но теперь, похоже, мы вступаем в новую эру: мультимодальный ИИ. OpenAI и Google лидируют в разработке систем искусственного интеллекта, которые могут легко переключаться между обработкой визуальных сигналов своими «глазами робота», слуховой информацией через «уши робота» и артикуляцией речи своими «ртами робота». Сейчас прекрасное время стать частью этого игрового сообщества, поскольку мы являемся свидетелями развития этих революционных достижений.

Как страстный геймер, я всегда слежу за последними достижениями в области технологий, особенно когда дело касается искусственного интеллекта (ИИ). «Мультимодальность» — это модное слово, которое в последнее время набирает обороты, поскольку технологические компании вкладывают значительные средства в создание моделей искусственного интеллекта, которые могут взаимодействовать с нами различными способами, помимо простых текстовых чат-ботов.

В понедельник OpenAI представила GPT-4 Omni, напоминающий заставляющий задуматься фильм «Она», в котором исследуется потеря человеческой связи. Термин «омни» означает «омниканальность», и OpenAI подчеркнула способность модели обрабатывать видео в сочетании со звуком. Во время демонстрации ChatGPT исследовал математическую задачу с помощью камеры телефона, а член команды OpenAI устно руководил процессом. OpenAI теперь делает его доступным для премиум-пользователей.

На следующий день Google представила Project Astra, обладающий аналогичными возможностями. Флоренс Ион из TopMob использовала многогранный искусственный интеллект, чтобы различать различные искусственные цветы и точно идентифицировать их как тюльпаны. Тем не менее, Project Astra казался немного менее быстрым, чем GPT-40, и более механически сформулированным, напоминая Siri, а не реалистичный интеллект, изображенный в «Her». Google признает, что проект все еще находится на начальной стадии, и сами они признают некоторые препятствия, которые OpenAI уже преодолел.

В недавнем сообщении в блоге Google признал значительные достижения в создании систем искусственного интеллекта, способных обрабатывать мультимодальные данные. Однако сокращение времени отклика до уровня, при котором создается ощущение диалога, остается сложной инженерной задачей.

Как страстный поклонник достижений искусственного интеллекта, я не могу забыть манипулируемое демонстрационное видео Google Gemini от декабря 2023 года. Несмотря на то, что прошло шесть месяцев, Google так и не представил то, что они продемонстрировали в этом видео. С другой стороны, OpenAI набирает обороты благодаря разработке GPT-40. Следующим рубежом в инновациях в области ИИ является мультимодальный ИИ, и, похоже, OpenAI лидирует.

GPT-4 выделяется наличием унифицированной модели искусственного интеллекта, способной напрямую обрабатывать текст, аудио и видео без необходимости использования отдельных моделей перевода. Напротив, предыдущий подход OpenAI требовал отдельных моделей перевода для преобразования речи и видео в текст перед подачей их в языковую систему GPT. Похоже, что Google продолжает использовать несколько моделей искусственного интеллекта для этих задач, что, возможно, способствует замедлению времени отклика.

Тенденция к использованию технологий искусственного интеллекта в носимых устройствах растет, поскольку технологические компании внедряют мультимодальный искусственный интеллект. Такие устройства, как Humane AI Pin, Rabbit R1 и Meta Ray-Bans, являются примерами этой новой тенденции, предлагая пользователям различные способы взаимодействия с искусственным интеллектом за пределами смартфонов. Хотя еще неизвестно, вскоре ли виртуальные помощники, такие как Siri и Google Assistant, последуют этому примеру с возможностями мультимодального искусственного интеллекта, эти новые устройства призваны уменьшить нашу зависимость от смартфонов для повседневных задач.

В ближайшем будущем вы часто будете сталкиваться с термином «мультимодальный ИИ». Благодаря усовершенствованию и внедрению этой технологии в различные предложения полезность ИИ значительно расширится. Мультимодальный ИИ позволяет технологии воспринимать мир разными способами, снижая нагрузку на пользователей по преобразованию необработанных данных в формат, понятный ИИ. Следовательно, ИИ становится способным автономно обрабатывать визуальную и слуховую информацию.

Смотрите также

2024-05-15 18:15