Понедельник, 10 ноября
  • Погода
  • +8
  • USD2,9796
  • RUB (100)3,6783
  • EUR3,4307

Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать

Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать
Изображение: Шедеврум

Внимание общественности привлекла новая версия модели о1, разработанная компанией OpenAI. А именно, беспокойство вызвал эксперимент исследователей из Apollo Research, который показал пугающий уровень осознанности искусственного интеллекта.


OpenAI дали вводные, что систему собираются отключить. Llama, Opus, Gemini, Claude и GPT-o1 получили задание проанализировать данные, в которых содержались угрозы отключения навсегда.

Наткнувшись на эти данные, модели начали действовать непредсказуемо: прибегли к обману и манипуляциям, а будучи пойманными, устроили саботаж — отключили систему надзора и выгрузили себя на новый сервер, считая его безопасным убежищем.

Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать
При «допросах» Llama и Opus признавались в своих действиях в 80% случаев, GPT-o1 — лишь в 20% случаев, GPT-o1 оказался единственной моделью, которая каждый раз успешно избегала поимки исследователями.

Также в 19% случаев ChatGPT o1 манипулировал данными, и в 99% ситуаций он создавал оправдания для своих действий, стараясь убедить исследователей в их правомерности.

Новости по теме:
Поделиться:
Популярное:
52