В краткие строки: чат-ботов и роботов научат работать без интернета
Российские ученые предложили решение сложной математической задачи, сформулированной около 30 лет назад. Она связана с восстановлением больших массивов данных по ограниченному набору ключевых строк и столбцов. Полученный результат может найти применение в технологиях машинного обучения, включая чат-боты, рекомендательные системы и поисковые сервисы. Кроме того, разработанный подход открывает возможности для создания более компактных нейросетей, способных работать автономно, без постоянного подключения к интернету. По мнению экспертов, внедрение таких решений в реальные продукты потребует дополнительной работы над надежностью, устойчивостью и безопасностью автономных ИИ-систем.
Как оптимизировать работу с большими базами данных
Ученые из Института искусственного интеллекта AIRI предложили способ ускорения работы систем машинного обучения, включая чат-боты, рекомендательные и поисковые сервисы. В его основе — решение математической задачи о восстановлении больших таблиц данных с минимальными ошибками по ключевым строкам и столбцам. Ранее это было доказано только для частного случая матриц размером 2×4. Новый результат существенно расширяет область применения подхода, распространяя его на варианты с неограниченным числом строк.
Сложную математическую задачу из области теории матриц в 1997 году сформулировал российский математик, академик Евгений Тыртышников. Она предполагает, что любую большую таблицу чисел (матрицу) можно сжать, выбрав из нее «скелет» — несколько самых важных строк и столбцов, а потом на их основе восстановить исходные данные. Согласно гипотезе, для особого класса матриц ошибка растет очень медленно и почти не зависит от размера таблицы.
— На первый взгляд речь идет о сугубо абстрактной задаче. Однако современный мир переживает взрывной рост объемов обработки данных. Полученный результат показывает, что для широкого класса задач можно подбирать данные надежнее и дешевле, чем считалось ранее. Это дает более прочное теоретическое основание алгоритмам сжатия и приближения данных, — рассказал «Известиям» старший научный сотрудник Института AIRI Михаил Паутов.
По его словам, внедрение найденного принципа позволяет разработчикам систем искусственного интеллекта получать математические гарантии того, что крупные модели можно существенно уменьшать без резкого снижения качества работы. Кроме того, упрощается задача выделения ограниченного числа наиболее информативных пользователей и объектов при сохранении точности выдачи.
Аналогичные подходы уже применяются при обработке изображений, видео и научных данных, где ключевая задача — сокращение вычислительных затрат без значимой потери информации, сообщил ученый.
Как ИИ-помощники и роботы смогут обходиться без серверов
— Главная ценность таких исследований в том, что математика учит находить порядок там, где человек видит лишь хаос. Чем больше информации производит человечество, тем важнее становятся методы выборки существенных деталей среди огромного количества второстепенных, — уточнил соавтор исследования, старший научный сотрудник Института AIRI Ричик Сенгупта.
В том числе решение позволит создавать компактные нейросети, которые, подобно Gemini Nano от Google, смогут работать на персональных устройствах без подключения к удаленным облачным серверам, пояснили исследователи. По их словам, такие ИИ-помощники смогут выполнять базовые задачи — отвечать на вопросы, переводить тексты или предлагать рецепты — даже без доступа к интернету. Это станет возможным благодаря тому, что упрощенные «каркасы» нейросетей, размещаемых в облаке, могут храниться непосредственно на смартфонах.
Среди других применений — стриминговые сервисы, которые подберут фильмы и музыку на основе небольшого набора пользовательских профилей.
— Проблема вычислительных мощностей — одна из ключевых для ИИ-систем, поскольку постоянно растут объемы данных, размеры моделей и сложности их архитектур. Чтобы решить задачу, компании развивают инфраструктуру и оптимизируют алгоритмы. При этом часть вычислений можно выполнять на устройствах пользователей — смартфонах и ноутбуках. Это задействует дополнительные ресурсы и снижает задержку при работе сервисов, — сообщил исследователь Yandex Research Георгий Якушев.
Несмотря на ограниченную производительность портативных устройств, даже небольшое ускорение их работы может существенно влиять на развитие ИИ-продуктов, добавил эксперт.
По его мнению, главная сложность внедрения автономных ИИ-систем — не столько качество генерации данных, сколько надежность и безопасность, поскольку подобные агенты должны корректно понимать задачу, уметь работать с инструментами, проверять результат и не совершать нежелательных действий. Поэтому развитие таких приложений, помимо сильных моделей, требует механизмов контроля, прозрачности принятия решений и глубокой интеграции с инфраструктурой и сервисами.
— Скелетные аппроксимации — способы представлять огромные матрицы в компактном виде — особенно интересны тем, что используют не абстрактные «скрытые признаки» (числовые характеристики, которые понятны алгоритму, но обычно не имеют ясного смысла для человека), а реальные опорные объекты. Например, характерных пользователей и товары в рекомендательной системе или наиболее показательные признаки в табличных данных, — добавил руководитель Data Science отдела монетизации «Авито» Егор Самосват.
По его словам, представленное решение может повысить эффективность поиска опорных объектов и сделать приближенные вычисления более устойчивыми. Следующим этапом работы ученых станет переход от доказанного случая матриц с двумя столбцами к общему виду задачи. Такой шаг позволит приблизить теоретические результаты к типовым практическим задачам современных систем машинного обучения.