Сервис для автоматического поиска вредоносного контента в интернете создали учёные МТУСИ

Специалисты Московского технического университета связи и информатики (МТУСИ) разработали сервис, автоматически выявляющий потенциально опасную, недостоверную и нежелательную информацию в онлайн-публикациях. Как сообщили РИА «Новости» в пресс-службе вуза, в основе лежат технологии машинного обучения и современные методы обработки текстовых данных.

Архитектура системы трёхконтурная. Первый уровень — поиск по словарю, который сопоставляет текст с ключевыми словами и даёт базовый отсев. Второй — морфологический анализ с лемматизацией, позволяющий учитывать различные словоформы без необходимости вносить в словарь все возможные варианты. Третий, интеллектуальный контур, реализован на предобученной модели на основе трансформеров — именно он обеспечивает высокую точность классификации и способен улавливать контекст, а не просто триггерные слова.

Преимущество разработки в том, что она объединяет классические лингвистические методы с нейросетевым подходом. Простой словарный фильтр пропустит вредоносный контент, если автор переформулирует фразу, а трансформерная модель анализирует семантику и способна распознать опасный смысл даже в завуалированной форме. Исследователи уже реализовали ключевые модули системы: аутентификацию и авторизацию пользователей, работу со словарём, логирование и аналитические компоненты.

В планах — дальнейшее совершенствование моделей машинного обучения, расширение словаря и повышение точности классификации.

Фактически МТУСИ создаёт не разовый инструмент модерации, а самообучающуюся платформу, которая будет адаптироваться под новые угрозы. В отличие от статичных фильтров, которые злоумышленники рано или поздно обходят, система с трансформерной моделью способна эволюционировать вместе с ландшафтом угроз.

Читайте ещё материалы по теме:

Комментарии