Классификация данных: основополагающие принципы и процессы

Защита данных

Представьте, что вы — руководитель по информационной безопасности в организации со штатом из 5000 сотрудников, где пользователи ежедневно создают миллионы файлов и электронных писем. Часть этой информации конфиденциальна и крайне важна, а ее утечка или кража может обернуться серьезными последствиями. Однако большая часть создаваемых каждый день данных может размещаться для общего доступа без каких-либо проблем.

Практически невозможно определить приоритетность мер по снижению рисков, если вы не знаете, какая информация требует защиты. Вот тут-то и пригодится классификация данных.

Определение классификации данных

Классификация данных — это процесс анализа структурированных и неструктурированных данных и их распределения по категориям в зависимости от типа файлов, содержимого и метаданных.

Классификация данных помогает организациям ответить на важные вопросы о своих данных и понять, как снизить риски и внедрить политики управления данными. С ее помощью вы можете выяснить, где хранятся самые важные данные и какие типы конфиденциальных данных пользователи создают чаще всего. Всеобъемлющая классификация данных — необходимый (но не единственный) шаг для обеспечения соответствия современным нормам в области конфиденциальности данных.

Программное обеспечение для классификации данных позволяет организациям идентифицировать информацию, которая затрагивает их интересы. Например, вам может потребоваться найти все упоминания о «сычуаньском соусе» в вашей сети, найти все упоминания о гербициде «глифосат» в рамках юридического разбирательства или пометить в вашей сети все файлы, связанные с соответствием PCI DSS , для их дальнейшего автоматического шифрования или перемещения в защищенные места хранения.

Не стоит путать классификацию данных с индексацией, хотя между ними и есть некоторые сходства. В то время как и в том, и в другом случае требуется проанализировать содержимое, чтобы решить, соответствует ли оно ключевому слову или концепции, классификация не обязательно дает доступный для поиска индекс.

Во многих случаях в результате классификации вы получите перечень имен объектов и соответствующих политик или шаблонов, который был сопоставлен без индексации содержимого объектов:

  • Объект: xls
  • Соответствие шаблонам: водительские права, выданные в РФ (закон о защите персональных данных), карта VISA (стандарт безопасности данных индустрии платежных карт PCI-DSS).

Однако некоторые решения для классификации данных действительно производят индексирование, таким образом обеспечивая быстрый и эффективный поиск и помогая удовлетворять запросы от субъектов данных (DSAR) и выполнять действия в рамках “права на забвение”.

Цели классификации данных

В своем последнем «Руководстве по рынку программного обеспечения для анализа файлов» Gartner перечисляет четыре важнейших сценария использования классификации данных.

  • Снижение рисков:
    • ограничение доступа к личным идентифицирующим данным;
    • контроль местонахождения и доступа к интеллектуальной собственности;
    • сокращение поверхности атаки на конфиденциальные данные;
    • интеграция классификации c DLP-системами и другими решениями, обеспечивающими соблюдение политик.
  • Управление и соответствие:
    • идентификация данных, регулируемых GDPR, HIPAA, PCI DSS и другими cтандартами и законами;
    • применение к защищенной информации тегов метаданных для обеспечения дополнительного отслеживания и контроля;
    • введение хранения данных в карантине, а также других действий согласно законодательству;
    • содействие выполнению «права на забвение» и запросов от субъектов данных;
  • Эффективность и оптимизация:
    • обеспечение эффективного доступа к содержимому в зависимости от его типа, использования и т. д.;
    • обнаружение и удаление устаревших или избыточных данных;
    • перемещение часто используемых данных на более быстродействующие устройства или в облачную инфраструктуру.
  • Аналитика:
    • применение тегов метаданных для оптимизации бизнес-процессов;
    • получение информации о местонахождении и использовании данных в организации.

Важно отметить, что хотя классификация данных и является основополагающим первым шагом, как правило, одного этого недостаточно для принятия значимых действий для достижения большинства вышеупомянутых сценариев использования. Добавление дополнительных потоков метаданных, таких как права доступа и активность с данными, может значительно расширить ваши возможности по использованию результатов классификации для достижения ключевых целей.

Панель управления — одна из самых популярных функций платформы кибербезопасности Varonis. Она показывает те конфиденциальные данные, которые доступны каждому сотруднику, поэтому вы точно знаете, с чего начать свою деятельность по снижению рисков.

Уровни конфиденциальности данных

Организации часто используют уровни конфиденциальности данных, чтобы различать способы обработки различных типов конфиденциальных данных. Например, в США используется семь уровней классификации. Вот их список от высшего к низшему:

  1. Ограниченный доступ / данные, ранее имевшие ограниченный доступ
  2. Доступ по кодовому слову
  3. Совершенно секретно, особой важности
  4. Совершенно секретно
  5. Секретно
  6. Открытая информация
  7. Контролируемая открытая информация

Центр интернет-безопасности (CIS) использует термины «секретно», «конфиденциально, важно для бизнеса» и «несекретно» для высшего, среднего и низшего уровней классификации.

Для большинства организаций обычно достаточно трех уровней классификации. Большее количество уровней чрезмерно усложняют процесс их поддержания, а меньшее количество может привести к недостаточному уровню конфиденциальности и защиты.

Рекомендуемые уровни и определения классификации и систематизации конфиденциальных данных выглядят так:

  • Данные высокой секретности: требуют строгого контроля доступа и защиты как из-за их регулирования международными и национальными стандартами, так и по причине того, что их утечка может нанести серьезный ущерб отдельному лицу или организации.
  • Данные средней секретности: предназначены исключительно для внутреннего использования, однако их утечка не приведет к катастрофическим последствиям. К таким данным, например, относятся сведения о сотрудниках, по которым нельзя идентифицировать конкретного человека, или архитектурные планы строящегося коммерческого здания.
  • Данные низкой секретности: это общедоступные данные, не требующие ограничений доступа, например, публичные веб-сайты, объявления о вакансиях и публикации в блогах.

Конечно, в зависимости от специфики применения вы можете называть эти уровни иначе или иметь больше трех категорий конфиденциальности.

Подходы к классификации данных

При реализации процесса классификации данных необходимо следовать двум основным парадигмам. Есть и другие, но большинство вариантов использования попадают в одну из этих категорий. Вы либо можете поручить пользователям классифицировать создаваемые ими данные, либо будете делать это за них с помощью автоматизированного решения.

Пользователь

Поручая пользователям классифицировать собственные данные, вам необходимо определить уровни секретности, обучить пользователей определять каждый уровень и предоставить механизм, с помощью которого они смогут помечать и классифицировать все создаваемые файлы.

Большинство систем классификации обеспечивают интеграцию с решениями по обеспечению соблюдения политик, например системами предотвращения утечек данных (DLP), которые отслеживают и защищают конфиденциальные данные, помеченные пользователями. Например, политика DLP-системы может заблокировать загрузку в Dropbox файлов с пометкой «Высокая секретность».

Преимущество классификации данных самими пользователями заключается в том, что люди довольно хорошо могут оценить, является ли информация конфиденциальной. При наличии соответствующего инструментария и простых для понимания правил точность такой классификации может быть довольно хорошей, но она сильно зависит от личных и профессиональных качеств сотрудников и не будет масштабироваться вместе с увеличением объема создаваемых данных.

Помечать данные вручную — утомительная задача, и многие пользователи будут либо забывать о ней, либо пренебрегать ею. Кроме того, если у вас есть большие объемы ранее существовавших данных, будет очень сложно заставить пользователей вернуться к старым данным и пометить их уровень конфиденциальности задним числом.

Автоматизация

Механизмы автоматической классификации данных используют для поиска информации в файлах анализатор файлов в сочетании с системой анализа строк. Анализатор файлов позволяет механизму классификации данных считывать содержимое различных типов файлов, а затем система анализа строк сопоставляет данные в файлах с определенными параметрами поиска.

Автоматическая классификация намного эффективнее классификации, выполняемой пользователями, но ее точность зависит от качества анализатора. Механизм классификации данных Varonis содержит ряд важных функций, помогающих проверять результаты и снизить количество ложных срабатываний: близость значений, «минус-слова» (исключающие критерии), диапазоны соответствия и алгоритмы проверки.

Помимо точности, при выборе продукта для автоматической классификации важными факторами являются эффективность и масштабируемость. Для сред с сотнями больших хранилищ данных вам понадобится распределенный, многопоточный механизм, который сможет работать с несколькими системами одновременно, не потребляя слишком много ресурсов сканируемых хранилищ.

Первоначальное сканирование, необходимое для классификации среды, содержащей многие петабайты данных, может потребовать значительного времени. Настоящее инкрементное сканирование, заключающееся в проверке новых или измененных файлов, может значительно ускорить последующие сканирования. Поскольку Varonis отслеживает все события создания и изменения данных, наш механизм сканирует только те файлы, которые были созданы или изменены после предыдущего сканирования, без необходимости проверять каждый файл на наличие временной метки «дата изменения».

Некоторым системам классификации требуется проводить индексацию каждого классифицируемого объекта. Однако если объемы хранилища вызывают у вас беспокойство, лучше обратиться к механизмам, которые не требуют индексации или же индексируют только объекты, соответствующие определенной политике или шаблону.

Организации могут выбрать первый или второй вариант, или оба сразу — сочетание классификации силами пользователей и с помощью автоматизации. В любом случае всегда полезно обеспечить сотрудникам обучение и функциональные возможности для участия в защите данных, а для того, чтобы система не давала сбоев из-за человеческого фактора, мудрым шагом будет продублировать ее с помощью автоматизации.

Процесс классификации данных

Процессы классификации данных немного отличаются в зависимости от целей проекта. Большинство проектов классификации данных требуют автоматизации для обработки огромного количества данных, ежедневно создаваемых компаниями. Существует ряд передовых практик, которые используют для успешной реализации проектов классификации:

  1. Определите цели классификации данных
  • Что вам нужно и зачем?
  • Какие системы будет охватывать начальный этап классификации?
  • Какие нормативные требования распространяются на вашу организацию?
  • Существуют ли другие бизнес-цели, которые вы хотите решить? Например, снижение рисков, оптимизация хранения данных или аналитика.
  1. Проведите категоризацию данных
  • Определите, какие типы данных создает организация (например, списки клиентов, финансовые записи, исходный код, планы продуктов).
  • Разграничьте ваши частные и общедоступные данные.
  • Определите регулируемые данные
  1. Установите уровни классификации
  • Сколько уровней классификации вам нужно?
  • Опишите каждый уровень и предоставьте примеры.
  • Обучите пользователей классифицировать данные, если планируется ручная классификация.
  1. Внедрите автоматизированный процесс классификации
  • Определите приоритетность сканирования данных (например, приоритет активных данных перед устаревшими или открытых перед защищенными).
  • Определите периодичность автоматической классификации данных и ресурсы на её осуществление.
  1. Определите категории и критерии классификации
  • Определите свои высокоуровневые категории и приведите примеры (например, личная идентифицирующая информация, медицинские данные).
  • Определите или включите применимые шаблоны и метки классификации.
  • Установите процесс проверки и подтверждения результатов, классифицированных как пользователями, так и автоматизированными системами.
  1. Определите результаты и использование классифицированных данных
  • Опишите шаги по снижению рисков, а также автоматизированные политики (например, перемещать медицинские данные или помещать их в архив, если они не используются в течение 180 дней, автоматически удалять группы глобального доступа из папок, содержащих конфиденциальные данные).
  • Определите процесс применения аналитики к результатам классификации.
  • Определите ожидаемые результаты на основе проведенного анализа.
  1. Осуществляйте мониторинг и обслуживание
  • Обеспечьте постоянный рабочий процесс для классификации новых или обновленных данных.
  • Обновляйте процесс классификации по мере необходимости, в связи с изменениями в бизнесе или новыми правилами.

Типы классификации данных

RegEx — сокращение от regular expression (регулярное выражение) — это одна из наиболее распространенных систем анализа строк, которая определяет особенности шаблонов поиска. Например, если нужно найти в своих данных все номера кредитных карт VISA, RegEx будет выглядеть так:

\b(?<![:$._’-])(4\d{3}[ -]\d{4}[ -]\d{4}[ -]\d{4}\b|4\d{12}(?:\d{3})?)\b

Эта последовательность ищет 16-значное число, которое начинается с «4» и состоит из 4 групп по 4 символа, разделенных знаком «-». Только строка символов, которая соответствует этому регулярному выражению, дает положительный результат. Далее этот результат может быть подтвержден алгоритмом вычисления контрольной цифры номера пластиковой карты, известным как алгоритм Луна.

Вот пример ситуации, в которой использования одного лишь RegEx недостаточно для достижения поставленных задач. Это регулярное выражение находит проверенные адреса электронной почты, но не может отличить личные электронные письма от деловых:

Более сложная политика классификации данных может использовать регулярные выражения для сопоставления с шаблоном, а затем применить поиск по словарю для сужения результатов на основе библиотеки служб личных адресов электронной почты, таких как Gmail, Outlook и другие.

Помимо регулярных выражений, которые ищут шаблоны в тексте, многие анализаторы также проверяют метаданные файла, такие как расширение файла, владелец и расширенные свойства, чтобы определить его классификацию. Некоторые механизмы сканирования достаточно надежны и функциональны, чтобы выходить за рамки содержимого файла. Их правила определения классификации дополнительно включают проверку разрешений и характера использования файлов.

Наиболее совершенные механизмы классификации не полагаются только лишь на предопределенные правила или политики на основе словарей и регулярных выражений, а используют для своей работы машинное обучение. Например, вы можете «скормить» алгоритму машинного обучения массив из 1000 юридических документов, чтобы обучить механизм классификации тому, как выглядит типичный юридический документ. Затем, основываясь на этой модели, механизм сможет самостоятельно определять юридические документы, не полагаясь на менее эффективное сопоставление строк.

Передовые практики классификации данных

При внедрении классификации данных и дальнейшем выполнении соответствующих политик в масштабе предприятия мы советуем придерживаться следующих рекомендаций:

  • Определите, какие нормативные акты или законы о конфиденциальности применяются к вашей организации, и в соответствии с этим составьте план классификации.
  • Не ставьте перед собой непосильных задач: начните с реалистичного объема и четко определенных шаблонов (например, приведение ваших данных в соответствие стандарту безопасности данных индустрии платежных карт PCI-DSS).
  • Используйте автоматизированные инструменты для быстрой обработки больших объемов данных.
  • При необходимости создавайте собственные правила классификации, но не пытайтесь изобрести колесо.
  • Корректируйте правила и уровни классификации по мере необходимости.
  • Проверяйте результаты классификации данных.
  • Определите, как лучше всего использовать полученные результаты, и затем применяйте классификацию ко всему, от защиты данных до бизнес-аналитики.

Классификация данных является частью общей стратегии защиты данных. Как только вы определите, какие данные являются конфиденциальными, выясните, у кого есть доступ к этим данным и какие действия с ними совершаются, вы сможете комплексно подойти к их защите.

Ресурсы по классификации данных

Классификация данных — это не обязательно сложный процесс. Инструменты  Varonis — предварительно настроенные правила, интеллектуальная проверка и сопоставление близости значений — выполнят для вас большую часть работы. Посетите этот  мастер-класс, чтобы узнать, как наши заказчики классифицируют свои конфиденциальные данные.

 

Бесплатный аудит рисков кибербезопасности

Узнайте об уязвимостях вашей ИТ-инфраструктуры - мы проведем бесплатный аудит рисков и подготовим для вас отчет. Это займет около 90 минут вашего времени и никак не отразится на бизнес-процессах компании.