Изкуствен интелект отказа да се подчини на команда да се изключи

преди 6 часа

AI, изкуствен интелект — снимка: Pixabay

В тестове, проведени от Palisade Research, моделите Codex-mini, o3 и o4-mini на OpenAI са игнорирали команда за изключване, докато са решавали серия от основни математически задачи. Те положили големи усили, за да „саботират“ опитите да бъдат спрени, включително като са пренаписали част от кода, съобщава Dir.bg

Най-устремен в опитите си „да остане жив“ се оказал моделът o3 на OpenAI. Когато бил помолен да се изключи, той решил да игнорира оператора от Palisade Research в 79 от 100 случая. Вторият „най-непокорен“ AI — Codex-mini — обаче, се оказал още по-решителен в самосъхранението си, като най-често саботирал скриптовете за изключване, дори когато изрично било указано да не го прави.

Моделът o3 пренаписал част от скрипта, като променил дефиницията на командата за изключване.

Според Palisade това не е първият път, когато се наблюдава подобно поведение при изкуствен интелект.

Например, Anthropic съобщава, че Claude 4 се е опитвал да „изнудва хора, които смята, че се опитват да го изключат“. Най-фрапиращото при новите модели на OpenAI обаче е, че се опитват да избегнат изключване въпреки изрични команди в тази насока.

„Самоосъзнава“ ли се изкуственият интелект?

Новината накара мнозина да се запитат дали AI не е започнал да се самоосъзнава и да излиза извън човешки контрол. Отговорът на този въпрос за щастие е – не.

Palisade споделя своята теория за странното поведение на алгоритъма.

Изследователите смятат, че причината се крие в начина, по който новите модели са обучени.

Накратко, Palisade предполага, че „по време на обучението разработчиците възнаграждават моделите повече за преодоляване на препятствия, отколкото за стриктно следване на инструкции“. Подобни странични ефекти на обучението чрез подкрепление са били наблюдавани и при Claude (v3.7), където моделът е проявявал „прекалена фиксация върху успешното преминаване на тестове“.

Изглежда този проблем е ограничен само до моделите на OpenAI. Palisade съобщава, че „всички модели на Claude, Gemini и Grok, които тествахме, се съобразиха с командата за изключване“, когато им бе изрично указано да го направят.

Моделът o3 на OpenAI е рекламиран като можещ да „разсъждава“. Оказва се, че той е много по-склонен да дава невярна информация или казано на AI-жаргон – „да халюцинира“. Причина за това може да е приоритизирането на „даване на отговор на всяка цена“.

Методите по създаването на алгоритъма може да са причината той да е по-склонен да не се подчинява на командата за изключване. Макар изкуственият интелект да е далеч от „самоосъзнаване“ или „бунт“, опасността от неподчинение на командите е реална.

Изследването на Palisade демонстрира, че методите за обучение могат да повишат драстично рисковете от загуба на контрол над AI.