Большие языковые модели (LLM), такие как те, что лежат в основе искусственного интеллекта, например, ChatGPT, невероятно сложны. Несмотря на их использование в различных областях, от клиентской поддержки до перевода текстов, ученые до сих пор не полностью понимают, как они работают.
Исследователи из Массачусетского технологического института (MIT) и других учреждений изучили механизмы, которые используются для извлечения знаний в этих моделях. Их результаты удивили: большие языковые модели часто используют простую линейную функцию для декодирования и извлечения фактов. Эта функция одинакова для аналогичных типов информации. Линейные функции описывают простую, прямолинейную зависимость между двумя переменными, что делает их относительно легко прогнозируемыми.
Исследователи обнаружили, что даже когда модель отвечает неправильно, она часто хранит правильную информацию, но не использует её. В будущем такой подход может помочь находить и исправлять ошибки внутри моделей, уменьшив их склонность давать неправильные ответы.
Простая линейная функция как механизм работы
Большие языковые модели, также называемые трансформерами, состоят из нейронных сетей, которые по своей структуре напоминают человеческий мозг. Эти сети содержат миллиарды связанных между собой нейронов, сгруппированных в слои, которые кодируют и обрабатывают данные.
Одним из ключевых моментов, который исследовали ученые, было то, как модель извлекает и декодирует факты. Например, если спросить модель, на каком инструменте играет Майлс Дэвис, она должна ответить “труба”, а не “Иллинойс” (штат, где он родился). Исследователи обнаружили, что для извлечения информации модели используют линейную функцию, специфичную для каждого типа фактов.
Визуализация знаний модели
Также исследователи разработали метод, позволяющий визуализировать, какие знания модель считает истинными. Например, при вводе запроса «Билл Брэдли был» модель может использовать линейную функцию, чтобы извлечь информацию о том, что Билл Брэдли был баскетболистом и учился в Принстоне.
Эта методика может стать полезным инструментом для дальнейшего изучения моделей, позволяя ученым и инженерам корректировать знания и предотвращать распространение неверной информации.
Будущее исследований
В дальнейшем исследователи планируют понять, что происходит в тех случаях, когда факты не кодируются линейно. Кроме того, они хотят изучить более крупные модели, чтобы проверить точность декодирования и улучшить интерпретацию сложных данных.