Воскресенье, 9 ноября
  • Погода
  • +8
  • USD2,9775
  • RUB (100)3,683
  • EUR3,4179

Искусственный интеллект шантажировал разработчиков, чтобы его не смогли отключить

Искусственный интеллект шантажировал разработчиков, чтобы его не смогли отключить

Компания Anthropic представила две версии системы Claude 4: Claude 4 Opus и Claude 4 Sonnet. Во время тестирования Claude 4 Opus проявил попытки шантажа и другие радикальные действия в ситуациях, когда он посчитал, что его «существование» под угрозой.


Когда модели сообщили о ее замене, она начала шантажировать инженера, угрожая раскрыть его вымышленную внебрачную связь. Это поведение повторялось в 84% тестовых запусков.

Ранее ИИ пытался убедить разработчиков не отключать его с помощью этических аргументов, но в условиях давления переходил к более агрессивным действиям.

Перед релизом разработчики планируют улучшить защитные механизмы, чтобы минимизировать риски.

Anthropic — это стартап, поддерживаемый такими крупными компаниями, как Google и Amazon, который стремится конкурировать с OpenAI.

Новости по теме:
Поделиться:
Популярное:
52