Прозрачность часто отсутствует в наборах данных, используемых для обучения крупных языковых моделей

Для обучения мощных крупных языковых моделей исследователи используют обширные наборы данных, которые объединяют информацию из тысяч источников в интернете. Однако при таких объединениях и рекомбинациях часто теряется важная информация о происхождении данных и ограничениях их использования.

Эта проблема не только вызывает юридические и этические вопросы, но и может негативно сказываться на производительности модели. Например, если набор данных неправильно классифицирован, модель может быть обучена на данных, которые не предназначены для данной задачи. Кроме того, использование данных из неизвестных источников может ввести в модель предвзятости, что приведет к несправедливым прогнозам.

Прозрачность часто отсутствует в наборах данных, используемых для обучения крупных языковых моделей

Чтобы повысить прозрачность данных, команда исследователей из MIT и других учреждений провела систематический аудит более 1800 текстовых наборов данных, размещенных на популярных платформах. Они обнаружили, что более 70% этих наборов данных не содержат полной информации о лицензиях, а около 50% содержат ошибки в информации.

На основе этих данных исследователи разработали удобный инструмент под названием Data Provenance Explorer, который автоматически создает удобочитаемые резюме о создателях наборов данных, их источниках, лицензиях и допустимом использовании.

Проблемы с прозрачностью данных

Сложность идентификации правильных лицензий и источников данных создает серьезные проблемы для специалистов по ИИ. Например, если условия лицензии набора данных неверны или отсутствуют, компания может вложить значительные средства в разработку модели, которую в итоге придется удалить, потому что она использует частные данные.

Исследователи сосредоточились на так называемых наборах данных для “тонкой настройки” моделей, которые разрабатываются с целью улучшения производительности модели для конкретной задачи. Эти наборы данных часто создаются исследователями, академическими организациями или компаниями и лицензируются для определенного использования. При агрегировании таких наборов информации лицензионные данные нередко теряются.

Новый инструмент для повышения прозрачности

Data Provenance Explorer был создан для решения проблемы отсутствия прозрачности данных. Инструмент позволяет пользователям сортировать и фильтровать наборы данных по различным критериям и загружать карточки данных с ключевой информацией о происхождении и лицензиях.

Исследователи надеются, что этот инструмент поможет как разработчикам, так и регуляторам принимать более обоснованные решения относительно использования данных и обеспечит развитие ИИ в соответствии с этическими нормами.