Мы разработали ByteDog — нейросеть для поиска вредоносов

⚡ Мы разработали ByteDog — нейросеть для поиска вредоносов Она построена на архитектуре трансформеров — той же, что используют большие языковые модели. Но ее ключевая особенность в том, что вместо текста или изображений ByteDog анализирует файлы напрямую — в виде байтов. За счет этого ByteDog находит вредоносное ПО на 20% точнее, чем классические модели машинного обучения. Это первая подобная разработка в кибербезопасности в России и Европе. И она будет внедрена в наши продукты и сервисы. Как это работает 🤖 Представьте: вам приходит файл, похожий на счет от подрядчика, но внутри — вирус. Классическому антивирусу нужно время: распаковать файл, извлечь код, прогнать через набор правил. ByteDog пропускает эти шаги. Нейросеть сразу анализирует файл так же, как его видит операционная система, — как последовательность байтов. И находит признаки вредоносного кода, даже если он хорошо замаскирован. «Обучение и тестирование ByteDog проводились на образцах из реальных киберинцидентов на протяжении года. Модель продемонстрировала превосходство над классическими ML-моделями по качеству детектирования и скорости анализа — разница составила более 20%. ByteDog будет интегрирована в ряд продуктов и сервисов Positive Technologies по обнаружению киберугроз», — отметил Андрей Кузнецов, ML-директор Positive Technologies. В чем ноу-хау: 1⃣ Раньше ИИ в кибербезе требовал ручной подготовки данных под каждый новый вид вирусов. Специалисты заранее выделяли признаки, по которым обучали модель отличать вредоносный код от обычного. 2⃣ ByteDog убирает этот этап. После обучения она анализирует файлы напрямую — в том виде, как они есть на компьютерах, смартфонах, в облаке или интернете. 3⃣ Модель способна сама учиться находить закономерности, экстраполировать их и обнаруживать угрозы, которые ранее не встречались в данных. Этим она превосходит системы, основанные на жестких, фиксированных правилах. Это похоже на то, как языковые модели учатся понимать текст без знания грамматики — просто анализируя последовательности символов. Только здесь вместо слов — байты. 4⃣ Главная техническая сложность — длина входных данных. Если языковые модели работают с десятками тысяч токенов, то файлы — это миллионы байтов, ни один из которых нельзя пропустить. ByteDog решает эту проблему: анализирует файлы фрагментами и собирает общую картину. 5⃣ Еще одна особенность — для работы не нужен графический ускоритель: уже обученную модель можно запускать прямо на устройствах пользователей — компьютерах и смартфонах. Гордимся нашей командой, которая смогла разработать и обучить собственную модель с нуля. Дальше — больше 💪 #PositiveTechnologies

1 фото

Рубрики: Информационные технологии и Телеком