Перейти к основному содержанию
Реклама
Прямой эфир
Армия
Российская армия за сутки освободила четыре населенных пункта в ДНР
Мир
Лавров предупредил Европу о сокрушительном ответе в случае нападения на Россию
Мир
В МИД РФ заявили о готовности поддержать Китай в случае обострения с Тайванем
Мир
В США отметили нереальность просьбы Зеленского дать $800 млрд Украине
Мир
ЕС указал на важность уважения целостности Сомали после решения Израиля
Мир
В Германии предрекли отказ Трампа от одобрения плана Зеленского
Общество
Прокуратура начала проверку из-за искалеченного львенка в Москва-Сити
Мир
В Японии открыли перекрытый из-за ДТП с 67 авто участок дороги
Армия
Система «Купол Донбасса» за неделю предотвратила 229 атак ВСУ
Мир
В Финляндии из-за снежной бури пострадали 160 тыс. домохозяйств и два самолета
Мир
FT отметила исторический минимум рождаемости в Японии
Мир
В Польше сообщили о планах создать «антидроновую стену» на восточной границе
Армия
ВС РФ нанесли удары по используемым ВПК Украины объектам энергоинфраструктуры
Общество
Компания Samsung зарегистрировала в России два товарных знака
Мир
МАГАТЭ сообщило о начале ремонтных работ линии электропередачи рядом с ЗАЭС
Армия
ВС РФ успешно отражают атаки украинских элитных подразделений в Купянске
Армия
Армия России завершила освобождение населенного пункта Гуляйполе
Главный слайд
Начало статьи
EN
Озвучить текст
Выделить главное
Вкл
Выкл

В России предложили новый метод для анализа изображений. Он помогает выявлять несоответствие отдельных элементов иллюстраций друг другу и в целом противоречия здравому смыслу. В основе разработки — ИИ-алгоритм, который работает с текстовыми описаниями изображений. Предложенный подход увеличивает точность анализа визуальных данных и позволяет сократить вычислительные затраты. Разработка найдет применение в алгоритмах выявления фейковых фотографий, интерпретации спутниковых снимков, машинного чтения рукописных текстов и других приложениях, полагают эксперты.

Как распознавать изображения

Российские ученые разработали оригинальный и экономичный подход для выявления внутренних несоответствий в изображениях. В частности, он помогает оперативно вычислять визуальные данные, которые противоречат здравому смыслу. В разработке приняли ученые из Института AIRI, Сколтеха, центра компетенций по искусственному интеллекту MWS AI и Московского физико-технического института.

— Представьте картинку, на которой средневековый рыцарь изображен с мобильным телефоном в руке или пингвин на велосипеде. В таких случаях человек мгновенно понимает, что хотя каждый отдельный объект выглядит нормально «в целом с такими изображениями что-то не так». Наш мозг автоматически сопоставляет увиденное с базой накопленных знаний о мире и выявляет несоответствия. Для искусственного интеллекта эта задача гораздо сложнее, — рассказал «Известиям» один из разработчиков, руководитель группы «Вычислительная семантика» в AIRI и группы NLP в Сколтехе, доктор компьютерных наук Александр Панченко.

изображение
Фото: пресс-служба AIRI

Он добавил, что существующие системы хорошо распознают отдельные объекты. Например, рыцаря, телефон, велосипед, пингвина. Но они с трудом понимают, совместимы ли эти элементы друг с другом с точки зрения здравого смысла. Решая эту задачу, исследователи предложили анализировать с помощью алгоритмов ИИ не само изображение, а его текстовое описание.

Первый этап предполагает создание с помощью ИИ простых фактов об отдельных элементах изображения, то есть программа буквально перечисляет, что видит. Вместе тем, чтобы описать картинку с разных сторон и не повторяться, она подбирает максимально непохожие друг на друга утверждения, объяснил ученый.

Затем специальная нейросетевая языковая модель преобразует фразы в числовые последовательности — векторы. При этом близкие по темам предложения получают и схожие векторы. Это позволяет математически сравнивать смысл различных утверждений об изображении.

Такой способ обработки данных требует гораздо меньше вычислительных ресурсов, чем визуальные алгоритмы обработки изображений, которые обучаются на огромных количествах предварительно размеченных сведений.

Изображение
Фото: пресс-служба AIRI

На последнем этапе система автоматически сравнивает числовые векторы, и, если находит совершенно непохожие, то делает вывод, что изображение странное или противоречивое. Если же сильных различий нет, картинка считается нормальной.

— Таким образом, если на вход подать странное изображение, то система начинает описывать его противоречивыми фразами. Например, для картинки с рыцарем в утверждении «рыцарь держит телефон» есть несоответствие. Оно помогает выявить странность изображения. В дальнейшем остается только это зафиксировать, что можно сделать, например, с помощью классификатора противоречий, модели семантического следования и некоторых других методов, — пояснил Александр Панченко.

Изображение
Фото: пресс-служба AIRI

По его словам, предложенный метод был испытан на реальных библиотеках изображений, которые исследователи используют для тестирования программ. Его точность оказалась выше, чем показатели других известных моделей на 0,5–15% в зависимости от набора данных. При этом новый подход оказался значительно экономичнее.

Где востребованы методы ИИ-анализа изображений

Разработка открывает возможности для создания более надежных систем компьютерного зрения, также подход может найти применение в структурах модерации контента. Например, после доработки и дообучения на соответствующих данных программа сможет научиться выявлять фейки — сфабрикованные фотографии, на которых отражены факты, не соответствующие действительности, добавил Александр Панченко.

— Современный мир тонет в контенте. В этом объеме визуальной информации контента при развитии технологий генерации изображений с помощью ИИ и создания фейков люди уже не могут быть уверены, что видят реальность. Такие изображения, к сожалению, становятся новой нормой. Поэтому создание подобных алгоритмов — это не просто научная гонка, но и крайне важный вопрос доверия к информации, — рассказала «Известиям» руководитель научно-учебной лаборатории систем искусственного интеллекта, доцент Сибирского федерального университета Анна Пятаева.

Изображение
Фото: пресс-служба AIRI

В представленной работе, отметила она, очевиден сдвиг от просто «распознавания объектов» к пониманию смысла изображения. Это тот самый момент, когда ИИ становится ближе к человеческому восприятию. Он начинает не просто видеть, а понимать, что не так. Кроме очевидных применений, вроде модерации контента и проверки подлинности изображений, разработка по мере развития может быть востребована в промышленных линиях. Например, для проверки качества продукции, мониторинга экологии с помощью спутниковых снимков, а также в системах распознавания рукописей и старинных документов.

Кроме того, предложенный подход может быть полезен в системах оценки качества синтетических изображений, которые воспроизводят статистические характеристики реальных картин, но не соответствуют конкретным объектам, событиям или людям, добавил завкафедрой «Вычислительная техника» Пензенского государственного университета, доктор технических наук Максим Митрохин. Такие данные широко используют в алгоритмах машинного обучения.

Поиск «странностей» на фото или видео — один из способов понять, что материал создан с помощью искусственного интеллекта. В то же время в отрасли остается открытым вопрос, как и нужно ли распознавать изображения, отредактированные с применением ИИ, а также какой процент вмешательства считать достаточным, чтобы признать материал сгенерированным, — отметила заместитель директора по продуктам компании VisionLabs Татьяна Дешкина.

ИИ
Фото: ИЗВЕСТИЯ/Юлия Майорова

По ее мнению, в ближайшем будущем креативные продукты, которые создают без использования ИИ, вероятно, начнут маркировать специальным знаком, по аналогии с продуктами «без ГМО». При этом потребуется разработка определенных стандартов и нормативов для такой идентификации, чтобы избежать введения потребителей в заблуждение.

— Обработка текстовой информации в среднем требует меньше вычислительных мощностей, чем анализ изображений. Поэтому действительно можно проверять изображения на реалистичность, переводя их смысл в текст, — отметил ML-бренд-директор «Яндекса» Петр Ермаков.

Однако важно учитывать, что кодирование изображений в текст необратимо. Даже самое подробное текстовое описание не может полностью передать визуальную информацию, оставляя пространство для различных интерпретаций, резюмировал специалист.

Читайте также
Прямой эфир