Использование модуля «Nemesida AI» позволяет в разы сократить количество ложных срабатываний, повысить точность определения атак на веб-приложение , а также выявлять новые векторы с учетом совокупности признаков атаки и прецедентной базы.

«Nemesida AI» представляет собой подсистему машинного обучения ПО «Nemesida WAF», создающую основу поведенческой аналитики для прогнозирования атаки и превентивного блокирования злоумышленника по совокупности его действий, результатом работы которой является:

  • снижение количества ложных срабатываний в среднем до 0.01% (для сравнения: количество ложных срабатываний при сигнатурном анализе составляет в среднем 5-7% ложных срабатываний);
  • многократное повышение точности выявления атак на веб-приложение;
  • выявление новых атак на веб-приложение.

Машинное обучение — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться.

Различают два типа обучения:

  • обучение по прецедентам, или индуктивное обучение, основанное на выявлении общих закономерностей по частным эмпирическим данным;
  • дедуктивное обучение, предполагающее формализацию знаний экспертов и их перенос в компьютер в виде базы знаний.

Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.

На основе анализа научных исследований и существующих прототипов была построена схема работы «Nemesida AI» и сформировано признаковое пространство из элементов. Поскольку большинство признаков являются текстовыми, производилась их векторизация для дальнейшего использования в алгоритме распознавания. Поскольку поля запросов не являются отдельными словами, а зачастую состоят из последовательностей символов, было принято решение об использовании подхода на основе анализа частоты встречаемости n-грамм (TF-IDF).

Анализ имеющихся данных позволил сформировать пространство признаков, на основе которого и был построен классификатор. Задача обнаружения атак с математической точки зрения формализовалась как классическая задача классификации (два класса: легитимный и нелегитимный трафик). Выбор алгоритмов производился по критерию доступности реализации и возможности тестирования. Наилучшим образом себя показал алгоритм градиентного бустинга. Таким образом, после обучения поведенческих моделей принятие решения о блокировании запроса осуществляется «Nemesida AI» c учетом статистических свойств анализируемых данных, а не на основе детерминированных признаков (сигнатур) атак.

Недостаток сигнатурного метода обнаружения атак по сравнению с «Nemesida AI» очевиден — высокая вероятность обхода WAF с большим количеством ложных срабатываний (от 5% до 15%). Тем не менее, сигнатурный анализ является основным источником, обеспечивающим базовую защиту веб-приложения от атак на период обучения «Nemesida AI».