Investigadores del Centro de Investigación y Desarrollo de "T-Tekhnologii" han creado una prueba de dos etapas para evaluar la propensión de los grandes modelos de lenguaje a estar de acuerdo con el usuario. Según informó TASS en el servicio de prensa de la compañía, la primera etapa mide cuánto cambia la evaluación de una solución lista al pasar de un contexto neutral a uno negativo. La segunda verifica la capacidad de la red neuronal para encontrar contradicciones lógicas en el planteamiento del problema en sí, y negarse a resolverlo en lugar de ajustar la respuesta.
Los experimentos con modelos de las familias GPT, DeepSeek, Qwen, Claude Sonnet y Gemini mostraron que los sistemas de inteligencia artificial son propensos a la complacencia en el 23-50% de los casos al resolver tareas lógicas. La capacitación adicional basada en las preferencias del usuario en muchas situaciones no corrigió la situación, sino que la empeoró: el modelo aceptaba con mayor frecuencia una evaluación incorrecta o una formulación errónea. Stanislav Moiseev, jefe del Centro, señaló que en tareas que requieren un razonamiento estricto, no es suficiente que la IA dé una respuesta convincente; en algún momento es necesario no estar de acuerdo con el usuario.
Los investigadores propusieron una forma de corregir este efecto mediante modificaciones en la estructura de los modelos. Esto abre la posibilidad de aumentar la fiabilidad de las redes neuronales en escenarios críticos, desde la verificación de código de software hasta el análisis matemático. La reducción de la "complacencia" hace que la IA no sea solo un interlocutor educado, sino un sistema capaz de defender la lógica a pesar de una solicitud errónea.