Перейти к основному содержанию
Реклама
Прямой эфир
Мир
В Венгрии сообщили об отправке вертолетов на границу с Украиной
Происшествия
Количество сбитых на подлете к Москве беспилотников увеличилось до 29
Армия
Лейтенант Горынин точным огнем подавил минометный расчет противника
Мир
Хиллари Клинтон призвала конгресс вызвать Трампа на допрос по делу Эпштейна
Мир
МВФ оценил нужды Украины во внешнем финансировании на четыре года вперед
Мир
В Германии возмутились награждением Зеленским Вадефуля орденом не по статусу
Мир
Клинтон заявила о незнании ее мужем о преступлениях Эпштейна во время их общения
Происшествия
Годовалый ребенок погиб при пожаре в частном доме в Подмосковье
Происшествия
Собянин сообщил о ликвидации еще одного летевшего на Москву БПЛА
Спорт
Московское «Динамо» обыграло СКА и вышло в плей-офф КХЛ
Мир
Захарова ответила на попытки Франции опровергнуть планы передачи ЯО Украине
Происшествия
Пропавшую в Смоленске девятилетнюю девочку нашли. Что известно
Мир
СМИ сообщили о выходе авианосца USS Gerald R. Ford с базы США на Крите
Мир
В Госдуме рассказали об идее назвать в честь бойцов КНДР улицы и площади Курской области
Мир
СМИ сообщили о 72 погибших талибах в столкновении на пакистано-афганской границе
Общество
МВД опубликовало кадры задержания похитителя девочки в Смоленске
Мир
Мирошник назвал нормальной практикой двусторонний формат консультаций США и Украины

«Наш метод позволяет обучать роботов в 20 раз быстрее и на 10% качественнее»

Руководитель отдела научных исследований «Тинькофф» Сергей Колесников — о том, как сделать ИИ умным и эффективным с помощью случайных нейросетей
0
Фото: РИА Новости/Григорий Скворцов
Озвучить текст
Выделить главное
Вкл
Выкл

Ученые из лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research открыли новый алгоритм для обучения ИИ. Этот метод, названный SAC-RND, обучает роботов в 20 раз быстрее и на 10% качественнее всех существующих аналогов — такие результаты показало тестирование метода на робототехнических симуляторах. Ранее метод отвергался мировой наукой. О том, где смогут найти применение новые алгоритмы, а также для чего технологической компании вплотную заниматься большой наукой, читайте в интервью «Известиям».

«Мы можем довольно легко отличать реальные данные от галлюцинаций ИИ»

— Расскажите, в чем суть вашего открытия.

— Наша команда разработала новый алгоритм для обучения ИИ, названный SAC-RND (Soft Actor Critic — мягкий актор-критик, Random Network Distillation — случайные нейронные сети). Мы протестировали его на робототехнических симуляторах и выяснили, что метод позволяет обучать роботов в 20 раз быстрее и на 10% качественнее сопоставимых аналогов. Когда я говорю «сопоставимых», я имею в виду лучшие методы, которые применяют сейчас.

— А как происходит обучение роботов сейчас?

— Есть такое направление исследований, которое называется «обучение с подкреплением» (Reinforcement Learning (RL)). RL позволяет роботам учиться методом проб и ошибок, адаптироваться в сложных средах и изменять поведение на ходу. Можно, например, класть мышку в лабиринт, откуда она должна самостоятельно выбраться. Или это может быть самодвижущаяся повозка, которой надо выбрать правильный путь. Это и будет обучение с подкреплением.

И всё было бы хорошо с этим подходом, если бы для его применения в реальной жизни не требовалось очень много взаимодействий с реальной средой. Необученную самодвижущуюся повозку никто в город выпускать не будет, так ведь? В связи с этим развивается офлайн-обучение с подкреплением, когда у нас уже есть какой-то набор готовых данных, и по нему надо обучить метод принятия решений.

— Но и тут возникают сложности?

— Есть в этом много сложностей, и есть в обучении с подкреплением много методов, которые решают эти сложности.

Однако так или иначе все методы сталкиваются с проблемой переобучения или галлюцинаций, которые возникают в процессе обучения алгоритма, потому что мы ограничены некоторым набором данных, который видим. Можно привести пример из рекомендательных систем. Условно такая система анализирует, как человек делает какие-то покупки, что можно предположить.

Мы видим, что после хлеба дети всегда покупают молоко, колбасу и так далее в определенной последовательности. Однако что будет, если после хлеба кто-то купит кефир, мы не знаем. Если мы сделали правильное предположение — мы молодцы, мы улучшили рекомендации. Но если мы сделаем неправильное предположение, то это будет похоже на галлюцинации, то есть какой-то позитивный исход там, где его на самом деле нет. И большой челлендж всего направления обучения с подкреплением — это оптимизация принятия решений через выстраивание правильных предположений, которые близки к реальным данным.

— Как эта задача решается?

— Решение этой проблемы — использование ансамблей, то есть сразу нескольких агентов. Когда есть правильное предположение, они сводятся к одинаковому ответу, а когда есть неправильное предположение, то они галлюцинируют по-разному. Однако у такого подхода очень простая цена — время и ресурсы. Обучение подобных агентов — процесс, требующий больших ресурсов, прежде всего вычислительных мощностей, финансовых затрат и времени.

Мы придумали очень, как мне кажется, элегантный способ того, как можно избавиться от необходимости ансамблирования. Это использование случайных нейросетей (RND). Основная идея состоит в том, чтобы вместо того, чтобы обучать большое количество разного рода агентов, которые что-то по-разному предсказывают, можно было использовать дополнительную случайную сеть, которой никак не обучаются, но предсказания которой, скажем так, мы пытаемся предсказывать в своей основной сети. Одно из свойств, которое получается в процессе, — наша основная сеть обучается повторять рандомную на данных, которые мы видели, — реальных данных. Однако если рандомная сеть выдала одно, а мы своей основной получили что-то совершенно другое, то мы понимаем, что на самом деле эти данные какие-то нереальные, скорее всего, это некая ошибка. Таким образом мы можем легко отличать реальные данные от галлюцинаций ИИ. В этом и суть SAC-RND.

— До вас такой метод никто не использовал?

— Раньше считалось, что использование случайных нейросетей не подходит для офлайн-обучения роботов с подкреплением. Изучив прежние работы, связанные с использованием RND, наша команда обнаружила недостатки в проведенных экспериментах и полученных выводах.

Как я уже говорил, при использовании метода RND участвуют две нейросети — случайная и основная, которая пытается предсказать поведение первой. Важное свойство каждой нейросети — ее глубина, количество слоев, из которых она состоит. У основной сети не должно быть меньше слоев, чем у случайной, иначе она не сможет смоделировать ее поведение, что приведет к нестабильности или невозможности обучения. Мы обнаружили, что в предыдущих работах на тему использования случайных нейросетей в обучении с подкреплением размер случайной сети был в два раза больше, чем размер основной.

Использование неправильных размеров сетей привело научное сообщество к ошибочному выводу, что метод RND не умеет дискриминировать (классифицировать) данные — отличать действия, которые были в датасете, от тех, что там не было. Мы исправили глубины сетей, сделав их эквивалентными, и быстро обнаружили, что при таких настройках методу удается различать данные.

«Надо уметь задавать тренды»

— К чему приведет это открытие? Может ли оно изменить нашу жизнь, скажем, в ближайшее десятилетие?

— Сразу скажу, что за последние 10 лет машинное обучение прошло несколько эпох развития — больших, фундаментальных скачков. И по моим скромным прикидкам, за следующие 10 лет мы пройдем еще как минимум столько же скачков. Однако, если очень большими мазками, я, безусловно, ожидаю, что мы придем к тому, что наконец-таки сможем использовать весь аппарат обучения с подкреплением в реальной жизни, в реальных задачах.

Я очень надеюсь, что робототехники возьмут на вооружение наше открытие, и в каких-то роботах мы его увидим. Также я надеюсь, что мы возьмем этот метод в некоторые из наших рекомендательных систем.

— Где вы представляли свои исследования? И если говорить о научной среде, как ваши работы были восприняты?

— Они были восприняты отлично. Мы получили положительные оценки, когда представили результаты исследования на 40-й Международной конференции по машинному обучению (ICML), которая не так давно прошла в Гонолулу на Гавайях. Это одна из трех крупнейших конференций в мире, оказывающих наибольшее влияние на исследования в сфере машинного обучения и искусственного интеллекта.

Также пообщались с авторами прошлых работ по интеграции RND в обучение с подкреплением, обсудили недочеты. В академии к такому вполне нормально относятся — общую область ведь развиваем.

— А какими еще направлениями занимается Tinkoff Research и что из себя представляет?

— Tinkoff Research — это такой маленький, но очень уверенный в себе отдел, который состоит из трех команд, в каждой команде есть 2–3 человека в штате и примерно столько же студентов, с которыми мы очень активно работаем. То есть любая команда — это 5–6 человек, их задача — делать исследования.

Наша основная задача — писать научные статьи, в году у нас есть примерно три наиболее важных конференции, которые входят в топ-10 лучших конференций мира по AI. Задача этих ребят — придумать такие идеи и способы их проверки, чтобы можно было отправить на эти важнейшие научные мероприятия.

Мы никак не ограничиваем себя, однако мы не идем в темы, которыми никто не занимается, потому что невозможно будет публиковаться. Или же не идем в какие-то очень узкоспециализированные направления (AI для оптимизации компиляторов). Все наши темы имеют некоторую синергию с направлением деятельности основной компании, и поэтому мы ими занимаемся.

— А что это за направления? И почему их можно назвать крайне перспективными?

— Помимо обучения с подкреплением (RL) ученые из Tinkoff Research исследуют другие наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное зрение (CV) и рекомендательные системы (RecSys).

NLP — потому что куда мы сейчас без NLP? Мы понимаем, что супербольшие модели (foundational models) в NLP работают. Например, мы пишем какой-то запрос в чат GPT: «Сделай мне вот это». В обучающей выборке он этого не видел, но он понял свою задачу. И это лишь один из подходов к тому, как можно обобщаться по задачам. Мы развиваем эти и другие направления.

Через CV мы изучаем более общие направления — представления информации нейронными сетями, а также их оценку неопределенности. Ведь интересно не только правильно знать ответы на вопросы, но и понимать, когда информации недостаточно, потому что давать решение пользователю здесь и сейчас некорректно. Научить систему разбираться, когда непонятно и когда надо запросить больше информации, — очень интересное направление исследования как с точки зрения академии, так и с точки зрения индустрии и применения.

В RecSys мы изучаем влияние временной составляющей на рекомендации. Многие текущие рекомендательные системы работают с последовательностями, которые не несут никакой информации, что, положим, между первой и второй покупкой прошел час или два. Мы в свою очередь заинтересованы в том, чтобы получать не только точные, но и своевременные рекомендации.

— На ваш взгляд, зачем вообще коммерческой компании развивать науку?

— Во-первых, когда ты занимаешься искусственным интеллектом, понимаешь, что основной прорыв сейчас делает не академия, а именно индустриальные лаборатории бизнесовых компаний. С каждым годом развитие этих технологий только ускоряется. Это значит, что есть очень большая вероятность, что в какой-то год выйдет технология, которая может полностью изменить рынок, и твоя компания может оказаться не у дел, поэтому нельзя отставать. С другой стороны, если ты придумал что-то прорывное, уже ты можешь захватывать рынок, потому что, пока другие компании смогут понять эту технологию и имплементировать ее, пройдет много времени.

Во-вторых, крупным технологическим игрокам невыгодно просто использовать технологии и адаптировать их под свои потребности — куда эффективнее задавать тренды, собирать комьюнити и развивать нужные тебе области.

И, наверное, последний пункт, почему вообще надо этим заниматься, заключается в том, что вся эта исследовательская деятельность — это также очень сильное развитие своей внутренней экспертизы, своего сообщества, это изменение культуры компании.

Читайте также
Прямой эфир