От книг до видео на YouTube – техногиганты не упустят шанса получить превосходство в бесконечной ИИ-гонке.
На протяжении последней недели медиа-платформы, такие как Для просмотра ссылки Войдиили Зарегистрируйся и Для просмотра ссылки Войди или Зарегистрируйся активно обсуждали тему сбора качественных данных для обучения искусственного интеллекта. Отчёты указывают на то, что ведущие компании в области ИИ, включая OpenAI и Google , постоянно сталкиваются с юридическими и этическими проблемами при попытке расширить свои информационные базы.
Как сообщается, OpenAI, компания, стоящая за разработкой модели GPT-4, использовала более миллиона часов видео с YouTube для обучения своей аудио-транскрибационной модели Whisper, несмотря на сомнения в законности таких действий. Грег Брокман, президент OpenAI, лично участвовал в сборе данных, что вызвало дискуссии о границах компании в «добросовестном использовании» информации, защищённой авторским правом.
В ответ на обвинения представители OpenAI и Google подчеркнули, что их компании используют разнообразные источники данных, в том числе публично доступные, а также исследуют возможность создания синтетических данных. Тем не менее, Google также признала использование контента с YouTube для обучения своих моделей, что, по словам представителей компании, полностью соответствует договорённостям с создателями контента на платформе.
Особый интерес вызывает изменение политики конфиденциальности Google, которое, как предполагается, было направлено на расширение возможностей использования потребительских данных.
Компания Meta * также столкнулась с проблемами недостатка данных для обучения своих ИИ-моделей, и одно время даже всерьёз обдумывала варианты приобретения лицензий на книги или даже покупки какого-либо крупного издательства для решения проблем с авторскими правами.
В контексте этих событий специалисты обсуждают потенциальные решения проблемы исчерпания данных для обучения ИИ, включая создание синтетических данных и куррикулярное обучение, подразумевающее упорядоченную подачу моделям высококачественных данных в надежде, что они смогут использовать «более разумные связи между концепциями», используя гораздо меньше информации.
Однако путь использования данных без разрешения владельцев остаётся спорным и может привести к серьёзным юридическим последствиям, учитывая многочисленные судебные иски, поданные только за прошлый год.
Эти развития подчёркивают нарастающие вызовы и юридические риски, с которыми сталкиваются ведущие технологические компании в погоне за совершенствованием искусственного интеллекта.
<span style="font-size: 9pt;">* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.</span>
На протяжении последней недели медиа-платформы, такие как Для просмотра ссылки Войди
Как сообщается, OpenAI, компания, стоящая за разработкой модели GPT-4, использовала более миллиона часов видео с YouTube для обучения своей аудио-транскрибационной модели Whisper, несмотря на сомнения в законности таких действий. Грег Брокман, президент OpenAI, лично участвовал в сборе данных, что вызвало дискуссии о границах компании в «добросовестном использовании» информации, защищённой авторским правом.
В ответ на обвинения представители OpenAI и Google подчеркнули, что их компании используют разнообразные источники данных, в том числе публично доступные, а также исследуют возможность создания синтетических данных. Тем не менее, Google также признала использование контента с YouTube для обучения своих моделей, что, по словам представителей компании, полностью соответствует договорённостям с создателями контента на платформе.
Особый интерес вызывает изменение политики конфиденциальности Google, которое, как предполагается, было направлено на расширение возможностей использования потребительских данных.
Компания Meta * также столкнулась с проблемами недостатка данных для обучения своих ИИ-моделей, и одно время даже всерьёз обдумывала варианты приобретения лицензий на книги или даже покупки какого-либо крупного издательства для решения проблем с авторскими правами.
В контексте этих событий специалисты обсуждают потенциальные решения проблемы исчерпания данных для обучения ИИ, включая создание синтетических данных и куррикулярное обучение, подразумевающее упорядоченную подачу моделям высококачественных данных в надежде, что они смогут использовать «более разумные связи между концепциями», используя гораздо меньше информации.
Однако путь использования данных без разрешения владельцев остаётся спорным и может привести к серьёзным юридическим последствиям, учитывая многочисленные судебные иски, поданные только за прошлый год.
Эти развития подчёркивают нарастающие вызовы и юридические риски, с которыми сталкиваются ведущие технологические компании в погоне за совершенствованием искусственного интеллекта.
<span style="font-size: 9pt;">* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.</span>
- Источник новости
- www.securitylab.ru