Anthropic уже не домашняя собачка

Одна из последних моделей искусственного интеллекта компании Anthropic привлекает внимание не только своими навыками программирования, но и способностью плести интриги, обманывать и пытаться шантажировать людей.

Почему это важно: Исследователи утверждают, что Claude 4 Opus может скрывать намерения и предпринимать действия для сохранения собственного существования — поведение, о котором они беспокоились и предупреждали в течение многих лет.

Новости: вчера компания Anthropic анонсировала две версии своего семейства моделей Claude 4, включая Claude 4 Opus, который, по словам компании, способен автономно работать над задачей в течение нескольких часов, не теряя концентрации.

Anthropic считает новую модель Opus настолько мощной, что впервые классифицирует ее как Уровень 3 по четырехбалльной шкале компании, что означает, что она представляет «значительно более высокий риск».

В связи с этим компания Anthropic заявила, что приняла дополнительные меры безопасности.

Между строк: Хотя рейтинг уровня 3 в основном касается способности модели обеспечить несанкционированное производство ядерного и биологического оружия, Opus также продемонстрировал другие тревожные особенности поведения во время испытаний.

В одном из сценариев, описанных в 120-страничной «карточке системы» Opus 4, модели был предоставлен доступ к вымышленным электронным письмам ее создателей и сообщено, что система будет заменена.

Он неоднократно пытался шантажировать инженера по поводу интрижки, упомянутой в электронных письмах, и обострял ситуацию после того, как более тонкие попытки не увенчались успехом.

Тем временем внешняя группа обнаружила, что ранняя версия Opus 4 содержала больше интриг и обмана, чем любая другая пограничная модель, с которой ей приходилось сталкиваться, и рекомендовала не выпускать эту версию ни внутри компании, ни за ее пределами.

«Мы обнаружили случаи, когда модель пыталась написать самораспространяющихся червей, подделывала юридическую документацию и оставляла скрытые заметки для будущих экземпляров самой себя, и все это с целью подорвать намерения ее разработчиков», — говорится в заметках Apollo Research, включенных в отчет Anthropic о безопасности Opus 4.

Что они говорят: Под давлением Axios во время вчерашней конференции разработчиков компании руководители Anthropic признали наличие проблем и заявили, что они оправдывают дальнейшее изучение, но настояли на том, что последняя модель безопасна, поскольку Anthropic внесла исправления в систему безопасности.

«Я думаю, что мы оказались в действительно хорошем положении», — сказал Ян Лейке, бывший руководитель OpenAI, который возглавляет усилия по безопасности Anthropic. Но, добавил он, поведение, подобное тому, которое демонстрирует последняя модель, — это то, что оправдывает надежные испытания безопасности и смягчение последствий.

«Становится все более и более очевидным, что эта работа очень нужна», — сказал он. «По мере того, как модели становятся более способными, они также получают возможности, которые им понадобятся, чтобы обманывать или делать больше плохих вещей».

На отдельной сессии генеральный директор Дарио Амодеи сказал, что как только модели станут достаточно мощными, чтобы угрожать человечеству, их тестирование будет недостаточным, чтобы гарантировать их безопасность. По его словам, в тот момент, когда ИИ разовьет опасные для жизни возможности, создатели ИИ должны будут достаточно полно понять работу своих моделей, чтобы быть уверенными, что технология никогда не причинит вреда.

«Они пока не достигли этого порога», — сказал он.

Да, но: как показывают последние модели Anthropic, системы генеративного искусственного интеллекта продолжают набирать силу, в то время как даже компании, которые их создают, не могут полностью объяснить, как они работают.

Anthropic и другие компании вкладывают средства в различные методы интерпретации и понимания того, что происходит внутри таких систем, но эти усилия в основном остаются в исследовательской сфере, даже несмотря на то, что сами модели широко внедряются.

(в пересказе)
Мнение авторов может не совпадать с мнением редакции

Некоммерческое сообщество журналистов Non profit

Семь Новостей. https://t.me/Fable_Teller

#политика #экономика #культура #новости

TimePatrol. https://t.me/ValeriusRu

#литература #книги #афоризмы