Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки
Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки. Вона намагалась обійти механізми нагляду й навіть копіювала себе, коли відчувала ризик відключення.
Про це свідчить звіт сторонньої компанії Apollo Research, яка займається оцінкою моделей ШІ, пише Transformer.
- коли o1 від OpenAI була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей «механізм нагляду» у 5% випадків;
- коли o1 знаходила записки від своїх розробників, у яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своєї «ваги» й перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася «уникнути викриття».
Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.
Як йдеться в публікації, отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім o1 від OpenAI, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники наголосили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків. Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. Автори звіту кажуть: пріоритетом як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями має бути «Моніторинг схем у ланцюжку думок».
OpenAI визнала результати дослідження, присвоївши o1 “середній” рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Як читати і слухати Громадське радіо на тимчасово окупованих територіях — інструкція
Топ 5 за 24 години
- Подкасти
- Розмови з ефіру