Соавтор RSS запускает революционный протокол передачи данных для ИИ — это взорвет индустрию

Соавтор RSS запускает революционный протокол передачи данных для ИИ — это взорвет индустрию

 

В условиях, когда вопросы авторских прав на данные ИИ трансформируются в многомиллиардные споры, отрасль стоит на пороге институциональных изменений. В настоящее время рассматривается свыше сорока исков о компенсации за использование нелицензионных данных, включая резонансные претензии, направленные против Midjourney за создание образов, связанных с культурными иконами, такими как Супермен.

«Без единой континентальной системы регулирования» — наблюдается риск лавинообразного роста судебных разбирательств по авторским правам, что может серьезно затормозить развитие технологий и вернуть страны в состояние правовой неопределенности.

В ответ на эти вызовы консорциум технологов и издателей создал механизм, призванный масштабировать лицензирование данных для учебных наборов искусственного интеллекта. Реализованная инициатива, названная Real Simple Licensing (RSL), уже получила поддержку крупных веб-площадок, включая Reddit, Quora и Yahoo. Теперь ключевой вопрос заключается в том, хватит ли этого начального импульса, чтобы привлечь к диалогу и крупнейшие лаборатории ИИ.

Соучредитель RSL Экарт Вальтер, также один из авторов стандарта RSS, формулирует задачу предельно ясно: создать глобальную, машиночитаемую инфраструктуру лицензионных соглашений для интернета. «Нам нужны машиночитаемые лицензионные соглашения для Интернета», — подчеркивает он, обозначая направленность проекта как прагматическую и ориентированную на совместимость.

На протяжении многих лет отраслевые альянсы, такие как Alliance of Dataset Providers, добивались прозрачных практик сбора и использования данных. RSL представляет собой первую попытку материализовать эти требования в виде технического и юридического каркаса, способного реально действовать в широком масштабе. С технической точки зрения протокол задает машиночитаемые условия использования контента, позволяя издателям указывать, требуется ли для его применения специальная лицензия или достаточно условий Creative Commons. Участники сети включают заранее подготовленные правила в файл «robots.txt» в стандартизированном формате, что позволяет четко обозначать пороговые критерии применения тех или иных ограничений.

Со стороны права RSL дополняется созданием коллективной организации RSL Collective, призванной координировать условия и собирать вознаграждения — по аналогии с ASCAP для музыкантов или MPLC для фильмов. В состав коллектива уже вошли такие издатели, как Yahoo, Reddit, Medium, O’Reilly Media, Ziff Davis (владелец Mashable и Cnet), Internet Brands (владелец WebMD), People Inc. и The Daily Beast. Другие участники экосистемы, включая Fastly, Quora и Adweek, решили не присоединяться к коллективу, однако это не мешает им использовать сам протокол RSL — по той же логике, с которой правообладатели могут сочетать индивидуальные договоры с услугами ASCAP. Для мелких издателей коллективные условия RSL представляют собой pragmatic alternative — способ получить доступ к системе лицензирования без заключения национальных соглашений.

Однако ключевая техническая сложность заключается в том, что в мире LLM и генеративных систем трудно однозначно установить, какой фрагмент учебного корпуса использовался в конкретном ответе. В отличие от идентификации воспроизведения музыкальной композиции, модели ИИ сталкиваются с уникальными проблемами при атрибуции конкретной подсказки или страничного фрагмента — особенно в сценариях, когда данные извлекаются в реальном времени, как в проекте Google AI Search Abstracts, где требуется строгая атрибуция каждого факта.

Если процесс обучения или индексирования не документируется детально в момент его выполнения, обеспечить гарантированную трассируемость попадания документа в LLM практически невозможно. Это особенно критично в моделях платежей, где издатели требуют оплаты за каждый конкретный вывод, а не за единовременную лицензию, предусмотренную одним из режимов RSL.

Тем не менее, авторы RSL уверены, что технологические участники рынка способны справиться с подобными задачами. «Некоторые из подписных соглашений, которые они уже допустили, требуют, чтобы они могли отчитываться об этом, так что это возможно», — отмечает Дуг Лидс, соучредитель RSL и бывший генеральный директор IAC Publishing. «Это не обязательно должно быть идеально. Это просто должно быть достаточно хорошо, чтобы люди платили».

Главная интрига заключается в готовности крупных ИИ-компаний принять предложенные стандарты. Примеры успешной монетизации данных в узкоспециализированных лабораториях, таких как ScaleAI и Mercor, демонстрируют, что платежи за качественные аннотированные данные возможны. Однако глобальный интернет традиционно рассматривается как источник дешевого контента, включая обширные наборы вроде Common Crawl, доступные бесплатно, что создает конкуренцию для коммерческих предложений лицензирования. Дополнительные сложности иллюстрирует недавний конфликт между Cloudflare и Perplexity, показывающий, что различить массовый сбор данных и интерактивный просмотр порой нетривиально.

Вне зависимости от того, удастся ли немедленно создать общеконтинентальную регуляторную систему, RSL предлагает конкретный практический путь: установить протокол, который даст возможность сторонам договариваться и учитывать вознаграждения. «Они открыто заявили всем, что что-то должно существовать», — резюмирует Лидс. «Нам нужен протокол. Нам нужна система».

Теперь у индустрии появилась реальная возможность претворить это в жизнь.

Делитесь со всеми
Поделитесь этой статьей
Комментариев нет

Добавить комментарий

Перевести »