Российские исследователи научились выявлять и устранять ошибки в генерации ответов ИИ

Фото: РИА Новости/Владимир Трефилов

Озвучить текст

Выделить главное

Вкл

Выкл

Исследователи из лаборатории искусственного интеллекта (ИИ) T-Bank AI Research разработали новый способ интерпретации и управления языковыми моделями на основе метода SAE Match. Открытие позволяет напрямую влиять на ошибки и галлюцинации в большой языковой модели во время генерации текста. Об этом сообщили в научной лаборатории Т-Банка.

Языковые модели, такие как ChatGPT, строят свои ответы на основе многослойной архитектуры, где каждый слой обрабатывает информацию, «передавая» ее дальше. До последнего времени исследователи могли только фиксировать, какие признаки (или концепты) появляются в этих слоях, не понимая, как именно они эволюционируют.

Новый метод позволяет получить информацию, откуда модель взяла данные — из контекста запроса или внутренних данных, и контролировать ее поведение, предотвращая выдачу некорректных ответов. Он не требует дополнительных вычислительных ресурсов, его могут использовать любые компании. Это позволяет напрямую исправлять ошибки в конкретном месте, что позволит избежать больших затрат на дообучение моделей.

Эксперименты показали, что можно усиливать или подавлять определенные признаки на разных этапах обработки, тем самым изменяя стиль, тематику или тональность генерируемого текста. Это особенно важно для создания безопасных и этичных решений на базе ИИ — например, для фильтрации нежелательных тем в чат-ботах без их переобучения.

Результаты исследования были представлены на международной конференции по машинному обучению (ICML), которая прошла в Ванкувере 13-19 июля. Это одна из главных конференция в области машинного обучения и искусственного интеллекта.