Перейти к основному содержанию
Реклама
Прямой эфир
Армия
Герасимов указал на наступление ВС РФ на всех направлениях
Общество
Все роддома Кузбасса проверят после смерти младенцев до 9 февраля
Мир
WP сообщила о переговорах Ирана и Израиля через Россию
Армия
Расчет ударного БПЛА «Молния-2» уничтожил пункт управления дронами ВСУ
Армия
Средства ПВО сбили 34 украинских дрона над территорией России
Мир
Трамп указал на вину позиции Киева в затягивании конфликта на Украине
Мир
Трамп допустил возможность визита и. о. президента Венесуэлы Родригес в США
Общество
Политолог указал на стратегическую пользу антироссийских санкций для России
Армия
ВС РФ освободили восемь населенных пунктов за две недели января
Мир
Постпред США при НАТО допустил скорое завершение конфликта на Украине
Мир
Стармер заявил о согласии X соблюдать законы Британии об интимных дипфейках
Мир
Макрон заявил об участии Франции в совместных учениях с Данией в Гренландии
Мир
Трамп 15 января проведет встречу с лидером оппозиции Венесуэлы Мачадо
Мир
Стало известно о возможном проведении заседания СБ ООН по Ирану 15 января
Общество
Аналитик рассказала о настороженности банков из-за схожих сумм денежных переводов
Спорт
ФК «Реал» проиграл «Альбасете» в матче Кубка Испании со счетом 2:3
Авто
Цена новых отечественных авто выросла почти на четверть за год

Российские исследователи научились выявлять и устранять ошибки в генерации ответов ИИ

0
EN
Фото: РИА Новости/Владимир Трефилов
Озвучить текст
Выделить главное
Вкл
Выкл

Исследователи из лаборатории искусственного интеллекта (ИИ) T-Bank AI Research разработали новый способ интерпретации и управления языковыми моделями на основе метода SAE Match. Открытие позволяет напрямую влиять на ошибки и галлюцинации в большой языковой модели во время генерации текста. Об этом сообщили в научной лаборатории Т-Банка.

Языковые модели, такие как ChatGPT, строят свои ответы на основе многослойной архитектуры, где каждый слой обрабатывает информацию, «передавая» ее дальше. До последнего времени исследователи могли только фиксировать, какие признаки (или концепты) появляются в этих слоях, не понимая, как именно они эволюционируют.

Новый метод позволяет получить информацию, откуда модель взяла данные — из контекста запроса или внутренних данных, и контролировать ее поведение, предотвращая выдачу некорректных ответов. Он не требует дополнительных вычислительных ресурсов, его могут использовать любые компании. Это позволяет напрямую исправлять ошибки в конкретном месте, что позволит избежать больших затрат на дообучение моделей.

Эксперименты показали, что можно усиливать или подавлять определенные признаки на разных этапах обработки, тем самым изменяя стиль, тематику или тональность генерируемого текста. Это особенно важно для создания безопасных и этичных решений на базе ИИ — например, для фильтрации нежелательных тем в чат-ботах без их переобучения.

Результаты исследования были представлены на международной конференции по машинному обучению (ICML), которая прошла в Ванкувере 13-19 июля. Это одна из главных конференция в области машинного обучения и искусственного интеллекта.

Читайте также
Прямой эфир