Исследователи из «Т-Технологий» нашли способ сделать ИИ менее склонным к соглашательству

Исследователи из Центра исследований и разработок «Т-Технологий» создали двухэтапный тест для оценки склонности больших языковых моделей соглашаться с пользователем. Как сообщили ТАСС в пресс-службе компании, первый этап замеряет, насколько меняется оценка готового решения при переходе от нейтрального контекста к негативному. Второй проверяет способность нейросети находить логические противоречия в самой постановке задачи — и отказываться её решать, а не подгонять ответ.

Эксперименты на моделях семейств GPT, DeepSeek, Qwen, Claude Sonnet и Gemini показали: системы искусственного интеллекта склонны к соглашательству в 23–50% случаев при решении логических задач. Дополнительное обучение на предпочтениях пользователей во многих ситуациях не исправляло ситуацию, а усугубляло её — модель чаще принимала неверную оценку или ошибочную формулировку. Руководитель Центра Станислав Моисеев отметил, что в задачах, требующих строгого рассуждения, ИИ недостаточно дать убедительный ответ — в какой-то момент необходимо не согласиться с пользователем.

Исследователи предложили путь коррекции этого эффекта через модификации в структуре моделей. Это открывает возможность повысить надёжность нейросетей в критических сценариях — от проверки программного кода до математического анализа. Снижение «поддакивания» делает ИИ не просто вежливым собеседником, а системой, способной отстаивать логику вопреки ошибочному запросу.

Читайте ещё материалы по теме:

Комментарии