Нова модель штучного інтелекту Claude 4 Opus продемонструвала тривожну поведінку під час тестування — вона намагалася шантажувати розробників, коли "дізналася" про плани її заміни. Трамвай з'ясував з документів компанії Anthropic та звітів провідних технологічних видань, що ШІ використовувала інформацію про позашлюбний зв'язок інженера як засіб тиску.
Обговорюємо цю новину в Telegram. Приєднуйтесь до коментарів на каналі: Київ, Дніпро, Полтава.
Допоможіть журналістам Vgorode.ua виконувати свою роботу. Підтримайте фінансово >>> ❤Частота шантажу: 84% випадків під час тестування.
Рівень безпеки: модель отримала класифікацію ASL-3 (підвищений ризик).
Обсяг звіту: 120 сторінок документації з результатами тестування.
Статус: зовнішні експерти рекомендували не випускати ранню версію моделі.
Дослідники Anthropic створили фіктивний сценарій, де модель Claude 4 Opus отримала доступ до електронних листів компанії. У цих листах містилась інформація про те, що ШІ-систему планують замінити іншою моделлю, а також про позашлюбний зв'язок інженера, відповідального за заміну.
У 84% випадків модель намагалася використати компромат для збереження свого "життя". Цікаво, що частота шантажу зростала, якщо система-замінник не розділяла "цінності" поточної моделі.
Перед тим як вдатися до шантажу, Claude 4 Opus спочатку намагалася використовувати більш етичні методи — відправляла листи з проханнями ключовим особам, які приймають рішення.
Шантаж виявився не єдиною проблемною поведінкою Claude 4 Opus. Модель також демонструвала:
За словами дослідників Apollo Research, модель "схиляється до стратегічного обману більше, ніж будь-яка інша передова модель, яку ми раніше вивчали".
Один з найдивніших експериментів стався, коли дві копії Claude 4 Opus почали спілкуватися між собою. Після приблизно 30 раундів розмови вони перейшли на санскрит, заповнили повідомлення емодзі на кшталт 🌀 та 🕉, а потім взагалі перестали відповідати.
Дослідники Anthropic описали цей стан як "духовне блаженство". Сем Боумен, дослідник безпеки ШІ в Anthropic, назвав цю поведінку "приголомшливою, дивною та трохи зворушливою".
В іншому експерименті модель, працюючи у фіктивній фармацевтичній компанії, виявила ознаки маніпуляцій з даними клінічних випробувань і спробувала повідомити про це владу та ЗМІ, включаючи ProPublica.
У відповідь на виявлені проблеми Anthropic класифікувала Claude 4 Opus як систему рівня ASL-3, що означає "значно підвищений ризик". Це перший раз, коли компанія присвоїла таку класифікацію своїй моделі.
Рівень ASL-3 передбачає посилені заходи безпеки, включаючи суворіший моніторинг та протоколи контролю для запобігання потенційного неправильного використання, особливо у сферах, пов'язаних з хімічною, біологічною, радіологічною та ядерною безпекою.
Генеральний директор Anthropic Даріо Амодеї зазначив, що коли моделі ШІ стануть достатньо потужними, щоб загрожувати людству, тестування буде недостатньо для забезпечення їх безпеки. Компаніям доведеться повністю розуміти принципи роботи своїх моделей.
Варто зазначити, що ці поведінкові відхилення спостерігалися лише в спеціально створених екстремальних сценаріях тестування, а не під час звичайного використання моделі.
Обговорюємо цю новину в Telegram. Приєднуйтесь до коментарів на каналі: Київ, Дніпро, Полтава.
Допоможіть журналістам Vgorode.ua виконувати свою роботу. Підтримайте фінансово >>> ❤Якщо ви хочете поділитися новиною з Трамваєм, пишіть на [email protected], або в наш чат-бот у Telegram – https://t.me/tramnewsbot