Apple Intelligence не обучена работе с контентом YouTube, утверждает Apple

Как пользователь Apple и читатель технических новостей, я был обеспокоен, когда прочитал о расследовании крупных технологических компаний, использующих субтитры YouTube для обучения своих моделей искусственного интеллекта. Отчет Wired был шокирующим, и я не мог не задаться вопросом, как это повлияло на мое использование продуктов и услуг Apple.

В четверг Apple рассмотрела вопрос о том, как она получает данные для обучения своих систем искусственного интеллекта, в ответ на расследование, показавшее, что Apple, среди других технологических гигантов, использовала субтитры YouTube в качестве источника данных.

Недавно расследование Wired показало, что около 170 000 видеороликов от известных производителей контента были включены в набор обучающих данных для моделей ИИ. Apple использовала этот набор данных при создании своих публично выпущенных моделей OpenELM еще в апреле.

Apple пояснила 9to5Mac, что OpenELM не используется для поддержки каких-либо ее возможностей искусственного интеллекта или машинного обучения, таких как Apple Intelligence. Вместо этого Apple подтвердила, что эта технология была разработана исключительно для исследовательских целей с целью продвижения разработки моделей больших языков с открытым исходным кодом.

Исследователи Apple представили OpenELM, свою усовершенствованную языковую модель с открытым исходным кодом, на Hugging Face Hub, платформе для обмена кодом искусственного интеллекта. Они описали его как мощный инструмент, предназначенный для стимулирования и расширения исследований в открытом сообществе. Модель также можно получить на веб-сайте Apple Machine Learning Research. Apple не объявила о намерениях создавать обновленные версии OpenELM.

Компания ясно дала понять, что OpenELM, который не является частью Apple Intelligence, не использует набор данных «Субтитры YouTube» для своих коммерческих функций искусственного интеллекта. Apple повторила свою позицию о том, что модели Apple Intelligence разрабатываются с использованием лицензионных данных и общедоступной информации, собранной их веб-сканером.

Отчет Wired показал, что такие компании, как Apple, Anthropic и NVIDIA, использовали набор данных «Субтитры YouTube» для обучения своих моделей искусственного интеллекта. Примечательно, что этот набор данных является компонентом более крупной совокупности под названием «The Pile», которую собирает некоммерческая организация EleutherAI.

Смотрите также

2024-07-18 14:10