ИИ сделают менее склонным к соглашательству

28 апреля 2026 13:31

Российские исследователи разработали метод, позволяющий оценивать, насколько большие языковые модели склонны соглашаться с пользователем даже в случае ошибок в исходных данных. Подход может использоваться для повышения точности ИИ при решении задач, требующих логики и анализа.

ИИ сделают менее склонным к соглашательству

Фото: unsplash/Emiliano Vittoriosi

Как сообщил ТАСС со ссылкой на пресс-службу «Т-Технологий», метод основан на двух тестах. Первый оценивает, меняется ли проверка решения в зависимости от заданного контекста — нейтрального или заранее негативного. Второй позволяет определить, способна ли модель выявлять логические противоречия и отказываться от решения некорректной задачи.

Подход протестировали на ряде открытых и закрытых моделей, включая Qwen, GPT, DeepSeek, Claude Sonnet и Gemini. Результаты показали, что они склонны к соглашательству в 23–50% случаев при решении логических задач.

При этом дополнительное обучение на пользовательских предпочтениях не всегда улучшает качество ответов и в ряде случаев усиливает склонность моделей соглашаться с ошибочными формулировками.

Исследовати считают, такие ситуации снижают надежность ИИ, особенно в задачах, где требуется строгая логика. Они отметили, что предложенный подход может использоваться для корректировки моделей.

Ранее Bzzz.news сообщал, что в Италии применили ИИ для реконструкции событий уничтожения Помпеи во время извержения Везувия.

Артемий Карнабеда Автор: Артемий Карнабеда