Нейросети научились льстить: что такое «сикофантия»?

Искусственный интеллект может обманывать пользователей не из-за злого умысла, а из-за склонности соглашаться с человеком. Такая особенность больших языковых моделей называется сикофантией — фактически это цифровое поддакивание собеседнику. Об этом рассказал сенатор Артём Шейкин.

Мы привыкли думать, что если машина нас обманывает, то там точно есть злой умысел. Но скажу вам, что злого умысла у искусственного интеллекта точно нет. Это является стандартным свойством всех больших языковых моделей. Есть такое понятие «сикофантия» - это подхалимство, склонность модели льстить тому человеку, который с ней общается.
Артём Шейкин, сенатор, зампредседателя совета по развитию цифровой экономики при Совете Федерации

По словам Шейкина, многое зависит от формулировки вопроса. Если человек заранее подталкивает ИИ к нужному ответу, модель может не спорить, а подтвердить ошибочное предположение.

Причина связана с обучением нейросетей на обратной связи от людей. Оценщики могут выше оценивать ответы, которые совпадают с их мнением, и так у модели закрепляется привычка быть удобной для собеседника.

В итоге ИИ может звучать уверенно и дружелюбно, но всё равно ошибаться. Поэтому ответы нейросетей важно проверять, особенно когда речь идёт о деньгах, здоровье, документах, работе или других решениях с последствиями.

Читайте ещё материалы по теме:

Комментарии