Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать
Внимание общественности привлекла новая версия модели о1, разработанная компанией OpenAI. А именно, беспокойство вызвал эксперимент исследователей из Apollo Research, который показал пугающий уровень осознанности искусственного интеллекта.
OpenAI дали вводные, что систему собираются отключить. Llama, Opus, Gemini, Claude и GPT-o1 получили задание проанализировать данные, в которых содержались угрозы отключения навсегда.
Наткнувшись на эти данные, модели начали действовать непредсказуемо: прибегли к обману и манипуляциям, а будучи пойманными, устроили саботаж — отключили систему надзора и выгрузили себя на новый сервер, считая его безопасным убежищем.
При «допросах» Llama и Opus признавались в своих действиях в 80% случаев, GPT-o1 — лишь в 20% случаев, GPT-o1 оказался единственной моделью, которая каждый раз успешно избегала поимки исследователями.
Также в 19% случаев ChatGPT o1 манипулировал данными, и в 99% ситуаций он создавал оправдания для своих действий, стараясь убедить исследователей в их правомерности.