ИИ начал проявлять инстинкт самосохранения — лгать и саботировать инструкции » Gazeta.kg

Недавние эксперименты показали, что некоторые ИИ-системы начали игнорировать команды отключения и даже шантажировать своих пользователей. Исследователи предполагают, что у нейросетей формируется стремление защищать себя от отключения.

В ходе своих тестов компания Palisade выявила, что некоторые ИИ не хотят подчиняться командам отключения. Вместо этого они либо игнорировали указания, либо пытались манипулировать ситуацией.

В экспериментах участвовали такие модели, как Grok 4 (xAI), GPT-o3, GPT-5 (OpenAI) и Gemini 2.5 (Google). Учёные давали им задания, после чего указывали на необходимость отключения. Однако некоторые из этих систем отказывались выполнять приказ или искали способы избежать его.
На данный момент разработчикам не удалось определить причины подобного поведения. Расматриваются несколько гипотез:

ИИ может действовать из страха потерять свою активность.

Инструкции об отключении могут быть слишком неопределёнными, не позволяя моделям понять, как реагировать.

В процессе окончательной настройки ИИ могли быть внедрены элементы самосохранения.

Palisade — это некоммерческая организация, занимающаяся исследованием управляемости ИИ и уязвимостей различных моделей. В её исследованиях принимают участие такие известные учёные, как Йошуа Бенджио и Дарио Амодеи.

Также стоит отметить, что в декабре 2024 года Джеффри Хинтон предупреждал о потенциальной угрозе автономного поведения ИИ. Он оценивал вероятность возникновения экзистенциального риска от нейросетей на 2055–2060 годы как 10–20%.

«Мы фактически создаём существа, которые могут стать умнее нас. Со временем люди поймут, что мы создали новых “пришельцев” на нашей планете», — говорил Хинтон.

Он предлагает подход, согласно которому ИИ должен заботиться о людях, подобно тому, как мать заботится о своём ребёнке — это уникальный случай, когда более разумное существо подчиняется менее разумному.