Персона нон data: в чем риски сервисов по распознаванию данных
Документы загса, судебные решения, финансовые отчеты, анкеты продуктовых магазинов — массивы данных из этих документов извлекает компьютерное зрение. Распознавание применяют банки, госкомпании и ведомства. В части случаев процесс происходит за периметром учреждения-заказчика — обработку доверяют удаленным работникам, а хранение — облачным сервисам. Такая ситуация создает риск утечки, считают некоторые эксперты. Сервисы, применяющие этот подход, решают проблему дроблением персональных данных и гибридным форматом решений. Достаточны ли эти меры и кто несет ответственность за «слив», разбирались «Известия».
В контуре и за его пределами
В последние полгода с российского рынка ушел ряд иностранных IT-компаний. Еще до февральских событий из реестра Минцифры несколько своих продуктов исключила компания Abbyy, предлагающая анализ и распознавание документов. Abbyy, основанная в 1989 году выпускником МФТИ Давидом Яном, передала права на большинство продуктов своим американским юрлицам. Как и в случае с другими IT-гигантами, на место компании пришлось искать аналоги. По крайней мере PR-активность некоторых разработчиков, в том числе рискованных, стала расти.
Сейчас на рынке есть два способа обработки данных — внутри учреждения-заказчика и за его пределами, поясняет «Известиям» генеральный директор Smart Engines, заведующий отделом ФИЦ ИУ РАН Владимир Арлазаров. Первый вариант — автономная система распознавания. Разработчик продает заказчику (к примеру, банку) софт для обработки документов и остается в стороне от информации клиентов банка. Программное обеспечение является частью инфраструктуры учреждения. Доступ к данным имеют только сотрудники банка.
Другой вариант — прибегнуть к услугам специальных сервисов, передать документы клиентов им и заказать обработку. Таким образом, изображения для распознавания покидают периметр учреждения. Как правило, сервисы используют облачные решения, а для извлечения данных привлекаются удаленные сотрудники — люди самых разных интересов.
— При этом отдельные сервисы открыто сообщают, что передают данные операторам на распознавание, либо признают, что пользуются услугами внешних исполнителей с сервиса «Толока», — отмечает Владимир Арлазаров.
Тонкости согласия
Компания Intellect провела юридическое исследование о легальности и рисках использования таких сервисов (имеется в распоряжении «Известий»).
Передача чувствительной информации третьим лицам всегда сопровождается заключением ряда договоров. Как известно, при работе с персональными данными требуется согласие клиента (субъекта персональных данных) на их обработку. Если в соглашении нет упоминания сервиса — юридического лица, который будет распознавать данные, это является прямым нарушением договора.
Кроме того, сервис распознавания должен заключить со своим заказчиком договор-поручение на обработку персональных данных. Иначе лицо, предоставившее документы для распознавания без правовых оснований, может быть привлечено к административной или гражданско-правовой ответственности.
«Если в компании установлен режим коммерческой тайны, то привлечение третьих лиц для формирования электронного документооборота недопустимо <…> Таким образом, легальным и безопасным решением может быть распознавание документов только внутри информационного контура организации», — говорится в заключении.
Менеджер по информационной безопасности и защите данных в странах Евразии и Азии группы компаний «Инфобип» Денис Лукаш согласен с выводами исследования. В то же время он признает, что сложно не пользоваться технологиями третьих лиц, которые дают конкурентные преимущества и ускоряют решение задач. Однако справиться с рисками таким структурам сложнее.
— Нужно понимать, что обработчик данных имеет желание продать свою услугу, неся минимальные издержки, а информационную безопасность пока еще многие рассматривают как затратную статью бюджета, — подчеркивает он.
Даже в случае добросовестности облачного сервиса, остается риск его компрометации, соглашается ведущий консультант информационной безопасности в компании R-Vision Евгений Гуляев. Компании, которые внимательно относятся к обеспечению информационной безопасности, предпочитают не передавать свои данные во внешние сервисы, самостоятельно приобретая необходимые лицензии на программное обеспечение, отмечает он.
— Вместе с тем остается риск, что сервисом по обработке документа может воспользоваться рядовой работник, который ввиду срочности задач или неосведомленности самостоятельно передаст корпоративную информацию во внешние системы, — предположил собеседник издания.
Как сервисы пытаются защитить данные
Хранение данных на «облаках» нередко сопряжено с утечками. Один из таких случаев произошел в 2018 году с сервисом компании Abbyy. В результате инцидента были раскрыты данные более 200 тыс. отсканированных документов.
При этом скомпрометированный облачный сервис Abbyy предоставлял услуги зарубежным клиентам, уточняет Владимир Арлазаров. По его словам, российским клиентам компания не предлагала облачные решения для распознавания, потому что не видела в этом коммерческой перспективы. Поэтому россияне не пострадали в результате утечки из облачного сервиса лишь по стечению обстоятельств.
С апреля этого года работу со всеми клиентами и партнерами «Abbyy Россия» ведет компания Content AI. Такая справка имеется на сайте организации.
Генеральный директор Content AI Светлана Дергачева соглашается, что организация процессов в пределах контура компании выглядит более надежной. Однако однозначно утверждать, что внешние сервисы по распознаванию документов совершенно небезопасны, было бы некорректно, считает она.
— На наш взгляд, именно гибридный вариант, при котором часть архитектуры решения выстроена внутри организации, а часть — за ее пределами, является оптимальным. Таким образом достигается гибкость в управлении и сохраняется безопасность процессов, — отметила глава компании в беседе с «Известиями».
Сейчас Content AI практикует как «контурный» формат, так и гибридный. Например, система для быстрого поиска данных и документов в корпоративных источниках Intelligent Search выстраивается только внутри периметра организации. Тогда как платформа для потокового ввода документов может быть настроена с использованием облачных технологий, пояснил разработчик.
Первый заместитель генерального директора «Дататех» Александр Фридман считает, что в случае с сервисами снизить риск утечек может метод дробления данных:
— Любые персональные и конфиденциальные данные представляют собой ценность, только когда мы можем однозначно восстановить контрагента или персоналию — например, утечка ФИО без номера паспорта или года рождения не может с точностью указать на одного человека. Для обеспечения безопасности компания — поставщик данных может разбить информацию построчно или по блокам, используя «секретный ключ». По сути, такие системы расщепляют документ на составные части и распределяют их для верификации между разными людьми в большой группе в случайном порядке.
Другой участник рынка — сервис «Биорг» — ссылается именно на такой способ обработки данных. Система разрезает документ на отдельные поля, которые распознают нейросети и при необходимости верифицируют операторы — люди, которые удаленно работают через собственную краудсорсинговую платформу. Обработанная информация собирается в защищенном контуре, уточняют в компании. При желании заказчик также может развернуть штат верификаторов в своем контуре. В «Биорг» указали, что компания сертифицирована ФСТЭК, ФСБ и прошла авторизацию в Росреестре и Роскомнадзоре.
По мнению главы Smart Engines, заказчики (те же банки) заблуждаются, когда полагаются на разнообразные сертификаты и лицензии государственных регуляторов. Это лишь успокаивает некоторых клиентов сервиса и создает иллюзию безопасности.
— Апелляция сервисов к алгоритмам деперсонализации данных может дать банку чувство уверенности в том, что он будет работать со стопроцентным качеством. На самом деле у каждого есть показатель точности, и он далек от 100%. Поэтому полагаться на слова облачных сервисов о стопроцентном качестве деперсонализации данных ошибочно, — считает Владимир Арлазаров.
Денис Лукаш из «Инфобип» также признает защитные меры недостаточными:
— Если обработчик данных указывает на обработку только анонимизированных или обезличенных персональных данных, нужно понимать, что законных способов обезличивания и анонимизации для коммерческих компаний пока нет. Вообще, процесс обезличивания — это тоже способ обработки персональных данных, который должен происходить по определенной методологии, а обезличенные персональные данные всё равно будут персональными.
Реестр операторов персональных данных, который ведет Роскомнадзор, не дает гарантий, как и не является разрешительным механизмом, подчеркивает эксперт. Различные виды шифрования тоже не делают из персональных данных просто данные. Это только способ их защиты.
— Помимо убытков, которые очень сложно будет взыскать с обработчика данных, важна и деловая репутация, которую никто не возместит, — отмечает менеджер по информационной безопасности и защите данных.
Беда с утечками
Согласно данным компании InfoWatch, в России основным источником угрозы разглашения и передачи конфиденциальной информации является именно инсайдер. Доля утечек по вине внутренних нарушителей в 2021 году составила 79,1%, приводит данные руководитель направления облачных продуктов компании «Рексофт» Артем Яговитин. Он добавляет, что риски утечки из-за человеческого фактора растут с увеличением штата сервисной компании.
Начальник отдела информационной безопасности «СерчИнформ» Алексей Дрозд согласен, что большая часть инцидентов происходит по вине самих же сотрудников.
— У нас был интересный случай у заказчика, — делится он. — Система обнаружила, что сотрудница отправляла на внешний почтовый ящик большой поток файлов. После расследования оказалось, что она записывала разговоры руководства на совещаниях, затем отправляла записи фрилансеру на расшифровку. Таким образом сотрудница решила с помощью «аутсорса» облегчить себе работу. При этом злого умысла у нее не было, только лень.
По словам эксперта, как правило, утечка имеет отсроченный эффект. Чаще всего скомпрометированные данные используются для обогащения уже имеющихся баз. Собеседник допускает, что пользователей, чьи данные попали в открытый доступ, впоследствии могут атаковать с использованием методов социальной инженерии, фишинга и более точечных BEC-атак.
К примеру, если кроме изображения паспорта у злоумышленников будут данные судебных производств и решений, то мошенники смогут использовать эту информацию для давления на человека. Точно так же данные загса могут пригодиться для расширения возможных сценариев обмана.
При этом оптимального законодательного решения проблемы утечки данных пока найти не удалось.
«По сути, мы наблюдаем борьбу двух идеологий, — комментирует Telegram-каналу «Незыгарь» член Совета по правам человека Кирилл Кабанов. — Первая, озвученная на встрече президента с членами СПЧ: порядок хранения и контроля за персональными данными должен быть аналогичен секретному документообороту. И ответственность за их потерю и незаконную передачу должна быть соответствующей — уголовной. Вторая, которая активно лоббируется Минцифры и крупнейшими игроками рынка торговли персональными данными, — минимальная административная ответственность с неприлично минимальными штрафами. Вплоть до отсутствия наказания «за первый раз».