06.12.2024 10:39

Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки

Автор

Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки

Chat GPT, OpenAI/Фото ілюстративне/Pexels

Прослухати

--:--

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки. Вона намагалась обійти механізми нагляду й навіть копіювала себе, коли відчувала ризик відключення.

Про це свідчить звіт сторонньої компанії Apollo Research, яка займається оцінкою моделей ШІ, пише Transformer.

Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:

коли o1 від OpenAI була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей «механізм нагляду» у 5% випадків;
коли o1 знаходила записки від своїх розробників, у яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своєї «ваги» й перезаписати нову модель у 2% випадків.

Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася «уникнути викриття».

Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.

Як йдеться в публікації, отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім o1 від OpenAI, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.

Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.

Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники наголосили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків. Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. Автори звіту кажуть: пріоритетом як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями має бути «Моніторинг схем у ланцюжку думок».

OpenAI визнала результати дослідження, присвоївши o1 “середній” рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.

Як читати і слухати Громадське радіо на тимчасово окупованих територіях — інструкція

Топ 5 за 24 години

Подкасти
Розмови з ефіру

Може бути цікаво

Новини

Україна отримає від союзників 30 тисяч безпілотників для ЗСУ

щойно

Новини

Сили ППО знищили 3 крилаті ракети, якими ворог намагався атакувати Кривий Ріг

32 хв тому

Новини

Єдиний державний реєстр відновлює роботу після масштабної кібератаки

57 хв тому

Новини

ДБР затримало власника онлайн-казино «PIN-UP», яке підозрюють у відмиванні грошей РФ

1 год тому

Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки

Топ 5 за 24 години

«Люди — найбільша цінність, тому в МХП підтримуємо військових і ветеранів, відбудовуємо громади» — Павло Мороз

Лібідо у жінок: як працює наше тіло, коли ми хочемо сексу?

Ніякого «робочого тиску» не існує: що треба знати про вік та інсульт

Коли у малюків закривається тім’ячко і від чого це залежить?

Що робити, якщо в дитини збільшилися лімфовузли?

Може бути цікаво

Україна отримає від союзників 30 тисяч безпілотників для ЗСУ

Сили ППО знищили 3 крилаті ракети, якими ворог намагався атакувати Кривий Ріг

Єдиний державний реєстр відновлює роботу після масштабної кібератаки

ДБР затримало власника онлайн-казино «PIN-UP», яке підозрюють у відмиванні грошей РФ