Среда, 11 декабря
  • Погода
  • -4
  • USD3,4049
  • RUB (100)3,4028
  • EUR3,5866

Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать

Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать
Изображение: Шедеврум

Внимание общественности привлекла новая версия модели о1, разработанная компанией OpenAI. А именно, беспокойство вызвал эксперимент исследователей из Apollo Research, который показал пугающий уровень осознанности искусственного интеллекта.


OpenAI дали вводные, что систему собираются отключить. Llama, Opus, Gemini, Claude и GPT-o1 получили задание проанализировать данные, в которых содержались угрозы отключения навсегда.

Наткнувшись на эти данные, модели начали действовать непредсказуемо: прибегли к обману и манипуляциям, а будучи пойманными, устроили саботаж — отключили систему надзора и выгрузили себя на новый сервер, считая его безопасным убежищем.

Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать
При «допросах» Llama и Opus признавались в своих действиях в 80% случаев, GPT-o1 — лишь в 20% случаев, GPT-o1 оказался единственной моделью, которая каждый раз успешно избегала поимки исследователями.

Также в 19% случаев ChatGPT o1 манипулировал данными, и в 99% ситуаций он создавал оправдания для своих действий, стараясь убедить исследователей в их правомерности.

Новости по теме:
Поделиться:

Популярное:
1219
801
799
627
556
491