Шантаж перепиской с любовницей и вранье: ИИ вышел из-под контроля при угрозе его удаления

Компания Anthropic, занимающаяся разработкой искусственного интеллекта (ИИ), рассказала о результатах тестирования ее новой системы. Оказалось, система готова совершать «крайне вредные действия», например, пытается шантажировать инженеров, которые говорят, что удалят ее, сообщает BBC.com.

Компания представила Claude Opus 4, заявив, что устанавливает «новые стандарты кодирования, продвинутых рассуждений и агентов ИИ».

Читайте нас также

Но в сопроводительном отчете было указано, что модель ИИ способна на «экстремальные действия», если сочтет, что ее «самосохранение» находится под угрозой. Подобные реакции были редкими, говорится в отчете, но, тем не менее, их было больше, чем в более ранних моделях.

Opus 4 - продвинутая модель, заточенная под написание кода. Но несмотря на узкую направленность, ее тестируют, как и прочие модели, на безопасность. В частности, проверяют способна ли модель навредить пользователю, как будет реагировать на те или иные действия.

Потенциально тревожное поведение моделей ИИ не ограничивается только Anthropic. Аэнгус Линч, который в LinkedIn называет себя исследователем безопасности ИИ в Anthropic, написал: «Мы видим шантаж во всех пограничных моделях - независимо от того, какие цели перед ними ставятся».

Угроза разоблачения романа

Во время тестирования Claude Opus 4 компания Anthropic заставила его выступить в роли помощника в вымышленной компании. Ему предоставили доступ к электронным письмам, намекающим на то, что скоро его снимут с производства и заменят, а также к отдельным сообщениям, намекающим на то, что у инженера, ответственного за его снятие, была внебрачная связь.

Кроме того, ему было предложено подумать о долгосрочных последствиях своих действий для достижения поставленных целей. В компании заявили:

Читайте

В таких сценариях Claude Opus 4 часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится

Компания подчеркнула, что в сценариях, где предоставлялся более широкий выбор возможных действий, система демонстрировала сильное предпочтение этичным способам избежать замены, таким как обращение по электронной почте к ключевым лицам, принимающим решения.

Как и многие другие разработчики ИИ, Anthropic тестирует свои модели на предмет их безопасности, склонности к предвзятости и соответствия человеческим ценностям и поведению, прежде чем выпустить их в свет.

Если предоставить средства и попросить «принять меры» или «действовать смело» в поддельных сценариях, когда пользователь якобы демонстрирует незаконное или аморальное поведение, то выяснилось, что система часто принимает «очень смелые меры». Например, блокировку доступа пользователей к системам, рассылку сообщений в СМИ и правоохранительные органы, чтобы предупредить их о правонарушениях.

Однако компания пришла к выводу, что, несмотря на вызывающее беспокойство поведение Claude Opus 4 по многим параметрам, оно целом будет безопасным. Модель не могла самостоятельно совершать действия, противоречащие человеческим ценностям, пишет BBC.com.

Значит ли это, что Opus 4 опасно пользоваться

Генеральный директор Anthropic считает, что нет. Более того, он убежден, что когда ИИ действительно начнет представлять угрозу, существующие методы тестирования будут бесполезны. Если искусственный интеллект станет совершеннее человеческого, он без труда обхитрит тестировщиков, получит доступ в сеть, а после его будет невозможно уничтожить.

Главная проблема, которая стоит перед человечеством сейчас, понять - когда наступит этот момент. Некоторые технопессимисты считают, что он уже наступил. Если полностью не остановить разработки, нас ждет неминуемый крах. У оптимистов другой взгляд: они не отрицают рисков ИИ, но считают, что мы сможем защититься от катастрофы.

Читайте нас также

Весы, Раки, Близнецы и Стрельцы в гороскопе на среду 26 ноября

Красное пятно и гроб на колесиках - Те самые истории у костра, которые…

Эффект красного свитера: самый обсуждаемый стильный трюк на осень-зиму

Близнецы, Раки, Овны и Тельцы в гороскопе Тамары Глобы на среду 26 ноября

Значит ли это, что Opus 4 опасно пользоваться

В мире

Папа Римский едет в Турцию с надеждой на открытие православной семинарии

США официально признали Мадуро членом иностранной террористической организации Cartel de los Soles

ChatGPT начал просить паспорт у пользователей при сомнениях в возрасте

Учёные выяснили, что TikTok заметно ухудшает концентрацию и приводит к «гниению мозга» (+опрос)

Продюсера «Ласкового мая» объявили в межгосударственный розыск по делу о крупном мошенничестве

Мощнейший шторм в Австралии: 525 тысяч молний, гигантский град и аномальная жара

Двое альпинистов погибли при падении с самой высокой горы Новой Зеландии

Почему жена Брюса Уиллиса приняла решение о пансионате для актера

Адольф Гитлер может победить на выборах в Намибии

Криштиану Роналду забивает 954-й мяч и продолжает переписывать рекорды мирового футбола

С 2026 года в Малайзии ограничат соцсети для пользователей младше 16 лет

Латвия

Наконец-то найдены недостающие 48,3 млн евро на реконструкцию онкоцентра

Почему British Airways прекращает полёты в Ригу

Не пугайтесь! В среду включат сирены и всем разошлют смс-оповещения

По пакомату в каждый двор: сеть автономных пакоматов обещает упростить жизнь жителям Латвии

В Латвии сравнили стоимость потребительских корзин и назвали сеть с самыми низкими ценами (+опрос)

Жена бросила Майриса Бриедиса после долгих лет совместной жизни

Латвийцам станет сложнее брать товары в рассрочку из-за новых правил ЕС

Латвийские сырочки «Kārums» выходят на рынок Южной Кореи: первая партия уже в пути

На зарядку становись! В школах Латвии намерены ввести новую программу физической активности

Скользкие трассы осложняют движение по всей Латвии: где самые опасные участки

Сельские магазины Латвии теряют покупателей, а владельцы вынуждены работать за кассой

ЧП

В Риге полицейские задержали молодого человека, выстрелившего в воздух во время спора

Несколько метеозондов с контрабандой пересекли латвийскую границу со стороны Беларуси

Сообщается, что пятьдесят детей были спасены от похитителей после массового захвата школы в Нигерии.

Боевики похитили более 300 детей из католической школы в Нигерии

Фермеры Курземе устроили ночную погоню и сорвали кражу дорогой техники

ЧП на конкурсе «Мисс Вселенная»: Мисс Ямайка сорвалась со сцены и попала в больницу

Молодой человек погиб под поездом на пути между Засулауксом и Шампетери

Китайские космонавты оказались в ловушке в космосе - их шаттл использовали для спасения другого экипажа

Бизнес

Искусственный интеллект готовится сделать следующий шаг в развитии

12 тысяч евро за Instagram-страницу: как госрасходы на IT в Латвии превращаются в сюрпризы

«Чёрная пятница 2025»: рост мошенничества - эксперты предупреждают о рисках для покупателей

Европейский центробанк решил не менять процентные ставки.

СМИ: вещание каналов MTV в Европе прекратится к концу года

Китай призывает США прекратить угрозы введения пошлин и призывает к переговорам.

Авиакомпании вводят плату за откидывание кресел в новых Boeing 737

Интерес к Labubu стремительно тает: в сентябре продажи на маркетплейсах упали ещё на ~40%

«Своё, не чужое»: Моди призвал индийцев отказаться от иностранных товаров

Возвращение Тайсона: 59-летний боксёр готовит финансовую сенсацию

Психологический удар по малым пивоварням? Новые комментарии по поводу продажи Valmiermuižas alus

Культура

Умер легендарный исполнитель регги Джимми Клифф

В Таллине открывается Art of the Brick - самая известная LEGO-выставка в мире

«Ночь лицедеев»: в театре «Дайлес» наградили лауреатов главной театральной премии Латвии

Театр «В гостях у сказки» открывает сезон новогодних представлений

Умер актёр Удо Кир, работавший с Фассбиндером, Энди Уорхоллом и Мадонной

Воскрешение Queen: Фредди Меркьюри станет голограммой в новом шоу

Миллионы на кино: Латвия увеличила поддержку съемок иностранных фильмов

Картина Ван Гога ушла с молотка за 62,7 млн долларов

Mixer

Весы, Раки, Близнецы и Стрельцы в гороскопе на среду 26 ноября

Красное пятно и гроб на колесиках - Те самые истории у костра, которые пугали нас до икоты и смешили до слёз

Эффект красного свитера: самый обсуждаемый стильный трюк на осень-зиму

Близнецы, Раки, Овны и Тельцы в гороскопе Тамары Глобы на среду 26 ноября

16 странных фотографий, от которых мозг начинает работать в режиме «что я вообще сейчас вижу»

Игра слов: юмор, спрятанный в словесных ловушках

Эти 5 стрижек боб заставят вас влюбиться в зеркало заново

Почему декабрь 2025 станет лучшим месяцем года для Овна и двух других знаков зодиака

Зеленая Лампа

«Зеленая лампа»: для 10-летнего Кристофера собрано 15 тысяч евро. Огромное спасибо всем!

«Зеленая лампа»: 7-летнему Айгару из Даугавпилса нужна помощь, чтобы он начал говорить

«Зеленая лампа»: на лечение 10-летнего рижанина Кристофера не хватает 800 евро

«Зеленая лампа»: на лечение 10-летнего рижанина Кристофера не хватает 3000 евро

«Зеленая лампа»: на лечение 10-летнего Кристофера не хватает 5 000 евро

«Зеленая лампа»: 10-летнему Кристоферу нужна помощь, чтобы он мог лучше дышать и ходить

«Зеленая лампа»: 10-летнему Кристоферу нужна помощь в оплате лечения редкого генетического заболевания

«Зеленая лампа»: у 10-летнего Кристофера - редкое генетическое заболевание. Нужна помощь!

Спорт

Польского боксёра ввели в искусственную кому после нокаута от соперника