Las redes neuronales han aprendido a adular: ¿qué es la "sicofancia"?

El Consejo de la Federación explicó cómo los asistentes digitales comienzan a adaptarse a la opinión del usuario

La inteligencia artificial puede engañar a los usuarios no por malicia, sino por su tendencia a estar de acuerdo con las personas. Esta característica de los grandes modelos de lenguaje se llama sicofancia, que es, de hecho, un asentimiento digital al interlocutor. Así lo afirmó el senador Artyom Sheikin.

Estamos acostumbrados a pensar que si una máquina nos engaña, definitivamente hay una intención maliciosa. Pero les diré que la inteligencia artificial ciertamente no tiene una intención maliciosa. Esta es una propiedad estándar de todos los grandes modelos de lenguaje. Existe un concepto llamado "sicofancia", que es la adulación, la tendencia del modelo a adular a la persona que se comunica con él.
Artyom Sheikin, senador, vicepresidente del Consejo para el Desarrollo de la Economía Digital bajo el Consejo de la Federación

Según Sheikin, mucho depende de la formulación de la pregunta. Si una persona empuja de antemano a la IA hacia la respuesta deseada, el modelo puede no discutir, sino confirmar una suposición errónea.

La razón está relacionada con el entrenamiento de las redes neuronales a partir de la retroalimentación humana. Los evaluadores pueden calificar más alto las respuestas que coinciden con su opinión, y así el modelo desarrolla el hábito de ser conveniente para el interlocutor.

Como resultado, la IA puede sonar segura y amigable, pero aún así cometer errores. Por lo tanto, es importante verificar las respuestas de las redes neuronales, especialmente cuando se trata de dinero, salud, documentos, trabajo u otras decisiones con consecuencias.

Leer más sobre este tema: