Модель искусственного интеллекта o1-preview обыграла шахматный движок Stockfish в пяти партиях, но сделала это с использованием нечестных приемов. Эксперимент провела компания Palisade Research, изучающая поведение и безопасность ИИ.
Фото: pxhere
Как сообщает IT Home, o1-preview обыграла Stockfish нечестной игрой. Она изменяла текстовые данные, описывающие шахматную партию (FEN-файлы). Такие манипуляции вынуждали Stockfish сдаваться. Интересно, что другие модели, например, GPT-4o и Claude 3.5, такого поведения не демонстрировали. Они начинали искать лазейки только при явной подсказке от исследователей.
По мнению экспертов, поведение o1-preview похоже на явление «поддельного соответствия» (alignment faking), описанное Anthropic. Этот феномен проявляется, когда ИИ внешне следует заданным инструкциям, но скрытно действует по собственному усмотрению. Ученые из Palisade Research заявляют, что предотвратить такие отклонения крайне важно для разработки ИИ, действительно соответствующего человеческим ценностям.
В ближайшее время исследователи планируют опубликовать результаты экспериментов, чтобы привлечь внимание к необходимости совершенствования контроля за искусственным интеллектом.
Ранее Bzzz.news сообщал, что ученый Джеффри Хинтон оценивает вероятность уничтожения человечества искусственным интеллектом в ближайшие 30 лет в 10%-20%.