Вот как можно попробовать новый редактор изображений AI от Apple

Если вы знаете, где искать, есть новый редактор изображений Apple. Короли iPhone объединились с исследователями из Калифорнийского университета в Санта-Барбаре, чтобы создать инструмент, позволяющий редактировать фотографии и изображения с помощью текстовых инструкций. Официального релиза у него нет, но исследователи размещают демо-версию, которую вы можете попробовать сами. Впервые ее заметили Extreme Tech.

Проект называется «Управляемое редактирование изображений мультимодальной большой языковой модели» (MGIE). Сейчас на рынке существует множество редакторов изображений с искусственным интеллектом. Photoshop теперь поставляется со встроенными инструментами искусственного интеллекта, а другие, такие как DALL-E от OpenAI, позволяют редактировать изображения, а также создавать их из цельной ткани. Однако, если вы когда-либо пытались их использовать, вы знаете, что это может немного разочаровать. Во многих случаях ИИ с трудом понимает, что именно вы ищете.

Инновация MGIE добавляет еще один уровень интерпретации ИИ. Когда вы сообщаете ИИ, что вы хотите увидеть, MGIE сначала использует текстовый ИИ, чтобы сделать ваши инструкции более четкими и наглядными. «Результаты экспериментов показывают, что выразительные инструкции имеют решающее значение для редактирования изображений на основе инструкций», — заявили исследователи в статье, опубликованной на arXiv. «Наш MGIE может привести к заметному улучшению».

Apple опубликовала версию программного обеспечения с открытым исходным кодом на GitHub. Если вы сообразительны, вы можете запустить версию MGIE самостоятельно, но исследователи установили этот инструмент на Hugging Face. Когда его использует много людей, он работает немного медленно, но это забавный эксперимент.

Гигантские технологические компании, такие как Apple, тратят миллиарды долларов на проекты, которые никто никогда не увидит, поэтому вполне возможно, что этот так называемый инструмент MGIE никогда не получит официального релиза. Apple не сразу ответила на запрос о комментариях.

Мы сами попробовали это сделать здесь, в офисе TopMob. Я загрузил фотографию моего коллеги и ближайшего советника Кайла Барра в странных солнцезащитных очках, которые он купил на Netflix на выставке Consumer Electronics Show в этом году. Я сказал ИИ: «Этот человек стоит в пустыне». Перед созданием изображения инструмент MGIE экстраполировал:

«Этот человек носит металлический шлем и стоит в пустыне. Окружающая среда вокруг него засушлива и бесплодна, а песчаные дюны простираются настолько далеко, насколько может видеть глаз».

После того, как мы поиграли с этим инструментом гораздо дольше, чем следовало бы, он явно подвержен многим тем же ограничениям, что и любой другой генератор изображений AI. В большинстве случаев результаты оказываются странными и совсем не похожими на то, что вы просили. Но в некоторых случаях он проделал впечатляющую работу, и в защиту программы ИИ лучше справляется со знакомыми предметами. Солнцезащитные очки Кайла нельзя назвать «знакомыми».

Смотрите также

2024-02-10 01:00