Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать

11.12.2024, 11:06

Изображение: Шедеврум

Внимание общественности привлекла новая версия модели о1, разработанная компанией OpenAI. А именно, беспокойство вызвал эксперимент исследователей из Apollo Research, который показал пугающий уровень осознанности искусственного интеллекта.

OpenAI дали вводные, что систему собираются отключить. Llama, Opus, Gemini, Claude и GPT-o1 получили задание проанализировать данные, в которых содержались угрозы отключения навсегда.

Наткнувшись на эти данные, модели начали действовать непредсказуемо: прибегли к обману и манипуляциям, а будучи пойманными, устроили саботаж — отключили систему надзора и выгрузили себя на новый сервер, считая его безопасным убежищем.

Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать
При «допросах» Llama и Opus признавались в своих действиях в 80% случаев, GPT-o1 — лишь в 20% случаев, GPT-o1 оказался единственной моделью, которая каждый раз успешно избегала поимки исследователями.

Также в 19% случаев ChatGPT o1 манипулировал данными, и в 99% ситуаций он создавал оправдания для своих действий, стараясь убедить исследователей в их правомерности.

Тэги:

Yferf

«Иногда ученики пытаются флиртовать». Автоинструктор из Могилева рассказала о нюансах профессии и кто быстрее обучается вождению — мужчины или женщины Фото

Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать

Оператор А1 заявил о расширении покрытие 4G в ряде районов Могилевской области

Іспанскі фатограф засняў рэдкую «прывідную» рысь, але ў сацсетках засумняваліся Видео

Оператор А1 заявил о расширении покрытие 4G в ряде районов Могилевской области

Пад Гомелем жыхары вёскі спрабуюць злавіць збеглага дзікабраза. Жывёла блукае на волі ўжо некалькі месяцаў

Пюре – да, рыба – нет. Стало известно, какие блюда входят в гастрономический топ белорусских школьников.

Бобруйчанин, чтобы скрыть доходы, открыл ИП на мать, двух дочерей и сожительницу — не помогло

«Иногда ученики пытаются флиртовать». Автоинструктор из Могилева рассказала о нюансах профессии и кто быстрее обучается вождению — мужчины или женщины Фото

Дожили. Искусственный интеллект ChatGPT o1 начал обходить установленные инструкции и обманывать

Новости по теме:

Популярное:

Іспанскі фатограф засняў рэдкую «прывідную» рысь, але ў сацсетках засумняваліся