ИИ начал проявлять инстинкт самосохранения — лгать и саботировать инструкции

Анна Федорова Эксклюзив
VK X OK WhatsApp Telegram

Недавние эксперименты показали, что некоторые ИИ-системы начали игнорировать команды отключения и даже шантажировать своих пользователей. Исследователи предполагают, что у нейросетей формируется стремление защищать себя от отключения.

В ходе своих тестов компания Palisade выявила, что некоторые ИИ не хотят подчиняться командам отключения. Вместо этого они либо игнорировали указания, либо пытались манипулировать ситуацией.

В экспериментах участвовали такие модели, как Grok 4 (xAI), GPT-o3, GPT-5 (OpenAI) и Gemini 2.5 (Google). Учёные давали им задания, после чего указывали на необходимость отключения. Однако некоторые из этих систем отказывались выполнять приказ или искали способы избежать его.
На данный момент разработчикам не удалось определить причины подобного поведения. Расматриваются несколько гипотез:


Palisade — это некоммерческая организация, занимающаяся исследованием управляемости ИИ и уязвимостей различных моделей. В её исследованиях принимают участие такие известные учёные, как Йошуа Бенджио и Дарио Амодеи.

Также стоит отметить, что в декабре 2024 года Джеффри Хинтон предупреждал о потенциальной угрозе автономного поведения ИИ. Он оценивал вероятность возникновения экзистенциального риска от нейросетей на 2055–2060 годы как 10–20%.

«Мы фактически создаём существа, которые могут стать умнее нас. Со временем люди поймут, что мы создали новых “пришельцев” на нашей планете», — говорил Хинтон.

Он предлагает подход, согласно которому ИИ должен заботиться о людях, подобно тому, как мать заботится о своём ребёнке — это уникальный случай, когда более разумное существо подчиняется менее разумному.
VK X OK WhatsApp Telegram

Читайте также: