La IA no se puede romper: en la National Research Nuclear University MEPhI crearon una red neuronal resistente al "envenenamiento" de datos

Incluso si se introducen datos maliciosos en el entrenamiento, el sistema de IA mantiene una precisión superior al 97%

Investigadores de la National Research Nuclear University MEPhI desarrollaron una nueva arquitectura de red neuronal llamada MambaShield, resistente a los llamados ataques de "envenenamiento" de datos (data poisoning).

Por que el "envenenamiento" de datos es peligroso para la IA

Estos ataques son una de las principales amenazas para los sistemas modernos de aprendizaje automatico. Por ejemplo, cuando un atacante introduce gradualmente ejemplos distorsionados en los datos de entrenamiento y el modelo empieza a aprender de forma incorrecta.

Como resultado, la precision puede caer bruscamente, del 95% al 40%. Esto es especialmente peligroso para la ciberseguridad, el transporte autonomo, las finanzas y la industria.

Como esta organizada la red neuronal de MEPhI

MambaShield sabe filtrar los datos maliciosos ya en la etapa de entrenamiento y no permite que influyan en el resultado. Incluso si hasta el 30% del conjunto de entrenamiento esta infectado, la precision del sistema se mantiene por encima del 97%. Al mismo tiempo, funciona 4,2 veces mas rapido que los transformadores clasicos.

La arquitectura se basa en modelos selectivos en el espacio de estados. En terminos sencillos, el sistema decide por si mismo que datos conservar y cuales descartar, filtrando los ejemplos maliciosos.

En la base de MambaShield hay tres tecnologias a la vez. La destilacion progresiva de robustez (PARD) permite transferir conocimiento de varios modelos a uno compacto. El aprendizaje por refuerzo jerarquico (HRL) ayuda al sistema a adaptarse en tiempo real al comportamiento cambiante del atacante. Y la certificacion PAC-Bayesian aporta garantias matematicas de robustez, incluso con un "envenenamiento" significativo de los datos.

Los experimentos con conjuntos de datos sobre ciberataques (CIC-IoT-2023, CSE-CICIDS2018, UNSW-NB15) mostraron que la precision de deteccion alcanza el 99,1%, mientras que en soluciones analogas es de alrededor del 97%. Bajo ataque, solo cae entre un 2% y un 3%, mientras que en los modelos convencionales desciende entre un 18% y un 20%.

Tambien hay limitaciones. Al trabajar con secuencias muy largas (mas de 5000 pasos) pueden acumularse errores de redondeo. Y si la cantidad de datos maliciosos aumenta demasiado (mas del 50-70%), cualquier sistema empieza a fallar.

Potencial para la implementacion industrial

MambaShield ya se considera como base para crear una IA de confianza. Estas soluciones pueden aplicarse en centrales nucleares, en el sector financiero y en la medicina, donde la precision y la robustez son especialmente importantes.

El desarrollo fue publicado en la revista Expert Systems with Applications y recibio una subvencion del Russian Ministry of Economic Development.

Leer más sobre este tema: