Системы предотвращения утечек конфиденциальной информации (DLP-системы)

Предотвращение утечек (англ. Data Loss Prevention, DLP) — технологии предотвращения утечек конфиденциальной информации из информационной системы вовне, а также технические устройства (программные или программно-аппаратные) для такого предотвращения утечек.

DLP-системы строятся на анализе потоков данных, пересекающих периметр защищаемой информационной системы. При детектировании в этом потоке конфиденциальной информации срабатывает активная компонента системы, и передача сообщения (пакета, потока, сессии) блокируется.

Сегодня все больше компаний приходят к выводу, что использование DLP-систем является такой же необходимостью, как использование традиционных средств информационной безопасности: межсетевых экранов, систем обнаружения и предотвращения вторжений, антивирусов и др. В то время как традиционные средства информационной безопасности направлены на защиту от внешних угроз, DLP-системы призваны защитить от внутренних угроз: утечки конфиденциальной информации за пределы корпоративного периметра.

При выборе DLP-системы сначала необходимо знать, насколько хорошо данная система может детектировать конфиденциальную информацию и каков процент ложных срабатываний системы.

Лингвистический анализ первым начал применяться при построении DLP-систем. Поиск осуществляется по ключевым словам и регулярным выражениям. Суть его заключается в том, что создаются списки ключевых слов и регулярных выражений, на основании которых осуществляется обнаружение конфиденциальной информации в потоке данных. Недостатком данного метода является его трудоемкость: он требует существенных трудозатрат на создание и поддержание в актуальном состоянии словарей. А также высокая доля ложных срабатываний (может достигать порядка 50).

Анализ с помощью шаблонов является продолжением предыдущего метода. Он основан на использовании специальных шаблонов, с помощью которых можно выявлять конфиденциальную информацию. Например, шаблон паспортных данных, содержащий имя, фамилию, а также определенную последовательность цифр (серия и номер) или шаблон ИНН, пенсионного свидетельства, кредитной карты.

Поиск по файлам предполагает использование некоторыми DLP-системами атрибутов файла (имя, размер, тип файла) для поиска конфиденциальной информации. Сам по себе этот метод малоэффективен, но является хорошим дополнением к другим методам.

Поиск по цифровым отпечаткам основывается на математическом преобразовании исходных данных, в результате которого создается база цифровых отпечатков конфиденциальных данных. Дальнейший поиск конфиденциальной информации осуществляется за счет сравнения передаваемых данных с отпечатками в базе DLP-системы.

Современные DLP-системы как западных, так и отечественных производителей используют комплекс методов для более точного обнаружения конфиденциальной информации. Однако западные производители основной упор делают на технологию цифровых отпечатков. Данная технология у них хорошо отлажена, и нередко алгоритм вычисления цифровых отпечатков является запатентованной собственностью компании. Другие методы являются дополнением к методам цифровых отпечатков. Если рассматривать отечественные DLP-системы, то в них упор делается в основном на лингвистический анализ, метод цифровых отпечатков является дополнительной возможностью и не всегда работает корректно.

Исторически большинство российских DLP-систем развивалось, основываясь на поиске инцидентов в архиве данных. Система делает теневое копирование (или зеркалирование) всего потока информации с ее последующим анализом на предмет наличия утечек конфиденциальной информации. Иными словами, после того как уже произошел инцидент, система предоставляет администратору возможность контекстного поиска данных, касающихся данного инцидента: кто, когда и как передал конфиденциальную информацию за пределы контролируемой зоны.

Преимуществом такого подхода является полнота собранной информации – ничего не упускается, в архиве трафика можно отыскать практически любые данные, касающиеся утечки конфиденциальной информации. Однако существенным недостатком является неспособность таких DLP-систем предотвращать утечки в реальном времени, поскольку анализ инцидентов происходит уже после того, как утечка произошла. Другим недостатком является необходимость хранения больших объемов данных. При копировании всего трафика объем архива может вырасти очень быстро до террабайтных размеров, а поиск нужной информации в таком объеме может занять от нескольких минут до нескольких часов или даже дней. Работа с такой системой «съедает» людской ресурс: администратор системы тратит часы рабочего времени на анализ инцидентов информационной безопасности.

Если говорить о подходах к построению DLP-систем у западных производителей, то они идут по пути оптимизации затрат на хранение информации. Большинство зарубежных производителей не делает копии всего трафика, вместо этого хранится информация только о тех событиях, которые система отнесла к инцидентам.

На российском рынке DLP-систем лидирующие позиции занимают как решения известных зарубежных производителей, например Websense, так и решения отечественных разработчиков Infowatch, DeviceLock, SeachInform (Белоруссия).