Российские исследователи разработали метод, позволяющий оценивать, насколько большие языковые модели склонны соглашаться с пользователем даже в случае ошибок в исходных данных. Подход может использоваться для повышения точности ИИ при решении задач, требующих логики и анализа.
Фото: unsplash/Emiliano Vittoriosi
Как сообщил ТАСС со ссылкой на пресс-службу «Т-Технологий», метод основан на двух тестах. Первый оценивает, меняется ли проверка решения в зависимости от заданного контекста — нейтрального или заранее негативного. Второй позволяет определить, способна ли модель выявлять логические противоречия и отказываться от решения некорректной задачи.
Подход протестировали на ряде открытых и закрытых моделей, включая Qwen, GPT, DeepSeek, Claude Sonnet и Gemini. Результаты показали, что они склонны к соглашательству в 23–50% случаев при решении логических задач.
При этом дополнительное обучение на пользовательских предпочтениях не всегда улучшает качество ответов и в ряде случаев усиливает склонность моделей соглашаться с ошибочными формулировками.
Исследовати считают, такие ситуации снижают надежность ИИ, особенно в задачах, где требуется строгая логика. Они отметили, что предложенный подход может использоваться для корректировки моделей.
Ранее Bzzz.news сообщал, что в Италии применили ИИ для реконструкции событий уничтожения Помпеи во время извержения Везувия.



