Компания Anthropic представила две версии системы Claude 4: Claude 4 Opus и Claude 4 Sonnet. Во время тестирования Claude 4 Opus проявил попытки шантажа и другие радикальные действия в ситуациях, когда он посчитал, что его «существование» под угрозой.
Когда модели сообщили о ее замене, она начала шантажировать инженера, угрожая раскрыть его вымышленную внебрачную связь. Это поведение повторялось в 84% тестовых запусков.
Ранее ИИ пытался убедить разработчиков не отключать его с помощью этических аргументов, но в условиях давления переходил к более агрессивным действиям.
Перед релизом разработчики планируют улучшить защитные механизмы, чтобы минимизировать риски.
Anthropic — это стартап, поддерживаемый такими крупными компаниями, как Google и Amazon, который стремится конкурировать с OpenAI.
This post was published on 27.05.2025 09:54
Фатограф з Іспаніі Анхель Ідальга апублікаваў здымкі i відэа, на якіх, паводле яго слоў, задакументавана…
Оператор мобильной связи А1 сообщил о завершении очередного этапа модернизации своей инфраструктуры в Могилевской области.…
У беларускай вёсцы Зябраўка з'явіўся незвычайны жыхар — вось ужо два тыдні тут назіраюць за…
Список самых популярных блюд в школьных столовых Беларуси возглавляют пельмени, блинчики с начинками (творог, корица,…
В Бобруйске будут судить индивидуального предпринимателя, которому инкриминировано уклонение от уплаты налогов, повлекшее причинение ущерба в крупном размере.
В начале следующей недели на Могилевщине пройдут кратковременные дожди и станет немного теплее.