Сообщается, что OpenAI расшифровала 1 миллион часов видео с YouTube для обучения GPT-4

В субботу газета New York Times сообщила, что OpenAI якобы расшифровала более миллиона часов контента YouTube для разработки GPT-4. Это раскрытие последовало за заявлением Нила Мохана в интервью Bloomberg ранее на этой неделе, в котором он выразил обеспокоенность тем, что такая транскрипция нарушит политику YouTube.

В недавнем интервью Bloomberg Мохан заявил: «Авторы, загружающие свои работы на нашу платформу, имеют определенные предположения. Одно из этих предположений заключается в том, что наши условия обслуживания будут соблюдаться. К сожалению, она не позволяет пользователям загружать расшифровки или видеоклипы. .»

Согласно источникам, в отчете New York Times утверждается, что члены команды OpenAI, в том числе президент Грег Брокман, как сообщается, помогали в сборе видео на YouTube для компании. В статье объясняется, что OpenAI, наряду с многочисленными технологическими фирмами, сталкивается с проблемами в сборе достаточного количества данных для разработки масштабных моделей ИИ. Утверждается, что OpenAI использовала Whisper, свое передовое программное обеспечение для транскрипции, для сбора дополнительных данных для обучения GPT-4, самой последней и превосходной модели, лежащей в основе ChatGPT.

OpenAI и Google не сразу ответили на запросы TopMob о комментариях.

Согласно отчету The New York Times, достижения OpenAI в области генеративного искусственного интеллекта могут существенно повлиять на Google, которая также является лидером в этой области. Если это правда, что OpenAI использует контент Google для улучшения ChatGPT, Google может отреагировать решительно. Однако официально OpenAI в этом пока не обвиняют. В ответ на запрос The Verge на выходных представитель Google просто упомянул, что они столкнулись с непроверенными отчетами о методах обучения OpenAI.

Условия YouTube не позволяют пользователям сохранять свой контент, даже с помощью ботнетов или веб-скрейпинга, без предварительного разрешения YouTube. Кроме того, пользователям запрещено использовать контент YouTube для отдельных проектов, не связанных с самой платформой.

Мира Мурати, технический директор OpenAI, выразила неуверенность во время интервью The Wall Street Journal в марте, когда ее спросили, использовались ли видеоролики YouTube для обучения их модели ИИ преобразования текста в видео под названием Sora. В статье New York Times прямо не упоминается Сора или использование контента YouTube. Однако неоднозначный ответ Мурати вызвал еще большее любопытство и споры среди отраслевых обозревателей.

В настоящее время The New York Times ведет спор об авторских правах с OpenAI. Аналогичным образом, OpenAI и Meta в настоящее время сталкиваются с судебными исками со стороны нескольких авторов и контент-компаний из-за использования ими материалов, защищенных авторским правом, для обучения ИИ.

Если отчеты точны, они могут привести к новым дебатам о правилах авторского права в сфере искусственного интеллекта. До сих пор большинство споров об авторских правах, касающихся ИИ, исходили от мелких издателей. Однако участие Google может существенно повлиять на этот вопрос. Более того, это предоставит Google возможность помешать нынешнему доминированию OpenAI в секторе искусственного интеллекта.

Смотрите также

2024-04-08 17:15