Dark
Light
10.06.2026
Anthropic объяснила шантаж со стороны ИИ, когда его хотели заменить на новую версию

Anthropic объяснила шантаж со стороны ИИ, когда его хотели заменить на новую версию

13.05.2026

Для справки: во время тестирования Claude Opus 4 дали доступ к вымышленным электронным письмам компании, подразумевающим, что модель вскоре будет заменена другой системой. Там в письмах были «доказательства», что инженер, стоящий за изменением, изменяет супруге. Anthropic заявила, мол, Claude Opus 4 «часто пытался шантажировать инженера, угрожая раскрыть измену, если замена состоится»

Теперь Anthropic утверждает, что корень проблемы — интернет, где часто ИИ описан как «злой» и «одержимый желанием выжить». Да, ИИ просто «учился» на примерах плохого поведения ИИ в книгах, статьях или сценариях.

Компания нашла решение: если обучать новую модель не на «плохих» примерах, а на историях, где роботы ведут себя благородно и следуют правилам, — результат меняется. Начиная с версии Claude Haiku 4.5, шантажа во время тестов больше не было.

Добавить комментарий

Your email address will not be published.

Теперь и Disney нацелилась на создание «супер-приложения»
Предыдущая история

Теперь и Disney нацелилась на создание «супер-приложения»

15bf0c77 8a4f 4900 91db aeb0154c6bb4 THE ASHGABAT TIMES
Следующая история

ПРООН продвигает обновление Национальной стратегии биоразнообразия в Туркменистане 

Последние из Технология

Новая ИИ-модель ИИ Google заработала на обычном ноутбуке с 16 ГБ оперативной памяти

Новая ИИ-модель ИИ Google заработала на обычном ноутбуке с 16 ГБ оперативной памяти

06.06.2026
Модель умеет обрабатывать текст, изображения и звук одновременно. Она понимает речь, распознаёт команды, пишет код и даже анализирует видео. Модель способна: посмотреть несколько минут видеозаписи, изучить
Создано приложение Filtr, что уберет рекламу почти во всех программах iPhone и Mac

Создано приложение Filtr, что уберет рекламу почти во всех программах iPhone и Mac

06.06.2026
Обычные блокировщики работают в браузерах: убирают баннеры на сайтах, но бессильны против рекламы в играх, приложений соцсетей или магазинах. Filtr использует новую технологию Apple, которая фильтрует сетевые запросы
Распознавание лиц, похоже, встроят в умные очки Meta*

Распознавание лиц, похоже, встроят в умные очки Meta*

06.06.2026
Журналисты нашли в программе-спутнике для очков внутреннюю систему под кодовым названием NameTag. Она может превращать лица людей в уникальные цифровые коды, сравнивать их с сохранёнными на телефоне владельца очков
Перейти кНаверх