Что годами может храниться в корпоративных архивах

Автор фото: Юлия Иванова/ООО" АРТВ"
В крупных компаниях электронные архивы годами пополняются без единой логики. После миграций, выгрузок из CRM, смены подрядчиков и реорганизации папок в системе остаются десятки тысяч файлов, содержимое которых давно никто не проверял. Как отмечают эксперты ИТ-компании ARTW, именно в таких массивах могут храниться документы с персональными данными, которые оказались вне учета и за пределами целевого контура хранения.
Для бизнеса это вопрос не только соблюдения внутренних регламентов, но и базовой информационной безопасности. Важно понимать, где находятся чувствительные документы, кто имеет к ним доступ и не попали ли они в системы, где их не должно быть. На практике задача осложняется масштабом: чем старше архив, тем дороже и дольше его разбор.
С таким кейсом эксперты ARTW работали для клиента из телеком-отрасли. Компании требовалось проверить архив объемом около 80 ГБ — это примерно 30 тыс. документов разных форматов: PDF, сканы, изображения и офисные файлы. По объему такой массив можно сравнить с небольшой библиотекой. При этом часть файлов могла содержать персональные данные, включая сканы удостоверяющих документов.
Ручная проверка в такой ситуации практически не работает. Даже если тратить на один файл 30–60 секунд, анализ всего архива занял бы от 250 до 500 часов. Поэтому эксперты ARTW выстроили для проекта локальный контур анализа — это позволило работать с чувствительными данными в контролируемой среде.В основе решения использовалась не одна технология, а связка инструментов: OCR, анализ изображений, поиск характерных признаков документа, языковые модели и vLLM. OCR — это технология оптического распознавания текста, которая позволяет извлекать текст из сканов, фотографий и PDF-файлов. Но, как поясняют в ARTW, одного OCR для таких задач недостаточно. В архивах часто встречаются размытые сканы, обрезанные страницы, фотографии под углом, документы с плохим контрастом и низким разрешением. Поэтому распознавание текста дополнялось анализом визуальных признаков и предварительной подготовкой изображений.
Ключевым решением стала многоступенчатая схема обработки. Эксперты ARTW не стали прогонять весь архив через ресурсоемкие этапы анализа. Сначала система отсекала заведомо нерелевантные файлы. Затем документы проходили предварительную подготовку: корректировались масштаб, контраст и качество изображения. Только после этого подключались более тяжелые этапы — OCR, анализ структуры документа, поиск типовых шаблонов и языковые модели. На финальную ручную верификацию попадали только спорные случаи.
Как отмечают в ARTW, такой подход позволяет изменить экономику задачи. Вместо сплошного ручного просмотра или тотальной обработки всего массива компания получает управляемый процесс фильтрации. В результате бизнес может быстрее выделить документы, требующие внимания, сократить трудозатраты и снизить риск того, что персональные данные годами остаются в архивах вне учета.
На нашем сайте используются cookie-файлы. Продолжая пользоваться данным сайтом, вы подтверждаете свое согласие на использование файлов cookie в соответствии с настоящим уведомлением и Политикой о конфиденциальности.