Как поклонник технологий и искусственного интеллекта, я очень рад видеть последние достижения в области мультимодального искусственного интеллекта от OpenAI и Google. Последние два года мы были очарованы моделями искусственного интеллекта, способными обрабатывать текст, но теперь игра изменилась. Основное внимание уделяется созданию моделей искусственного интеллекта, которые могут плавно переключаться между звуком, видео и текстом, делая наше взаимодействие с ними более естественным и человеческим.
Как геймер, я внимательно слежу за последними технологическими новостями, и на этой неделе OpenAI и Google действительно превзошли сами себя. В течение последних двух лет между технологическими компаниями шла острая конкуренция за создание все более интеллектуальных моделей искусственного интеллекта. Но теперь, похоже, мы вступаем в новую эру: мультимодальный ИИ. OpenAI и Google лидируют в разработке систем искусственного интеллекта, которые могут легко переключаться между обработкой визуальных сигналов своими «глазами робота», слуховой информацией через «уши робота» и артикуляцией речи своими «ртами робота». Сейчас прекрасное время стать частью этого игрового сообщества, поскольку мы являемся свидетелями развития этих революционных достижений.
Как страстный геймер, я всегда слежу за последними достижениями в области технологий, особенно когда дело касается искусственного интеллекта (ИИ). «Мультимодальность» — это модное слово, которое в последнее время набирает обороты, поскольку технологические компании вкладывают значительные средства в создание моделей искусственного интеллекта, которые могут взаимодействовать с нами различными способами, помимо простых текстовых чат-ботов.
В понедельник OpenAI представила GPT-4 Omni, напоминающий заставляющий задуматься фильм «Она», в котором исследуется потеря человеческой связи. Термин «омни» означает «омниканальность», и OpenAI подчеркнула способность модели обрабатывать видео в сочетании со звуком. Во время демонстрации ChatGPT исследовал математическую задачу с помощью камеры телефона, а член команды OpenAI устно руководил процессом. OpenAI теперь делает его доступным для премиум-пользователей.
На следующий день Google представила Project Astra, обладающий аналогичными возможностями. Флоренс Ион из TopMob использовала многогранный искусственный интеллект, чтобы различать различные искусственные цветы и точно идентифицировать их как тюльпаны. Тем не менее, Project Astra казался немного менее быстрым, чем GPT-40, и более механически сформулированным, напоминая Siri, а не реалистичный интеллект, изображенный в «Her». Google признает, что проект все еще находится на начальной стадии, и сами они признают некоторые препятствия, которые OpenAI уже преодолел.
В недавнем сообщении в блоге Google признал значительные достижения в создании систем искусственного интеллекта, способных обрабатывать мультимодальные данные. Однако сокращение времени отклика до уровня, при котором создается ощущение диалога, остается сложной инженерной задачей.
Как страстный поклонник достижений искусственного интеллекта, я не могу забыть манипулируемое демонстрационное видео Google Gemini от декабря 2023 года. Несмотря на то, что прошло шесть месяцев, Google так и не представил то, что они продемонстрировали в этом видео. С другой стороны, OpenAI набирает обороты благодаря разработке GPT-40. Следующим рубежом в инновациях в области ИИ является мультимодальный ИИ, и, похоже, OpenAI лидирует.
GPT-4 выделяется наличием унифицированной модели искусственного интеллекта, способной напрямую обрабатывать текст, аудио и видео без необходимости использования отдельных моделей перевода. Напротив, предыдущий подход OpenAI требовал отдельных моделей перевода для преобразования речи и видео в текст перед подачей их в языковую систему GPT. Похоже, что Google продолжает использовать несколько моделей искусственного интеллекта для этих задач, что, возможно, способствует замедлению времени отклика.
Тенденция к использованию технологий искусственного интеллекта в носимых устройствах растет, поскольку технологические компании внедряют мультимодальный искусственный интеллект. Такие устройства, как Humane AI Pin, Rabbit R1 и Meta Ray-Bans, являются примерами этой новой тенденции, предлагая пользователям различные способы взаимодействия с искусственным интеллектом за пределами смартфонов. Хотя еще неизвестно, вскоре ли виртуальные помощники, такие как Siri и Google Assistant, последуют этому примеру с возможностями мультимодального искусственного интеллекта, эти новые устройства призваны уменьшить нашу зависимость от смартфонов для повседневных задач.
В ближайшем будущем вы часто будете сталкиваться с термином «мультимодальный ИИ». Благодаря усовершенствованию и внедрению этой технологии в различные предложения полезность ИИ значительно расширится. Мультимодальный ИИ позволяет технологии воспринимать мир разными способами, снижая нагрузку на пользователей по преобразованию необработанных данных в формат, понятный ИИ. Следовательно, ИИ становится способным автономно обрабатывать визуальную и слуховую информацию.
Смотрите также
- Я видел сияние телевизора (2024). Объяснение концовки: настоящий ли «Розовый непрозрачный»?
- Нет, генеральный директор Apple Тим Кук не говорил, что предпочитает Logitech MX Master 3 Magic Mouse
- Продлили ли «Антрацит» на 2 сезон? Вот что мы знаем:
- Как изменить основной адрес электронной почты вашей учетной записи Apple
- Facebook Messenger получает интеграцию с Siri, голосовые аудио- и видеосообщения и многое другое
- Как объединить данные учетной записи пользователя в macOS
- Apple выпускает VisionOS 2.1.1
- Обзор OWC Express 1M2: твердотельные накопители не могут быть лучше этого
- Полюбуйтесь невероятным новым магазином Apple в Куала-Лумпуре, Малайзия.
- Шоу 8 – Краткое содержание и обзор эпизода 5 дорамы
2024-05-15 18:15