facebook
--:--
--:--
Ввімкнути звук
Прямий ефiр
Аудіоновини

Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки

1x
Прослухати
--:--
--:--

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки. Вона намагалась обійти механізми нагляду й навіть копіювала себе, коли відчувала ризик відключення.

Про це свідчить звіт сторонньої компанії Apollo Research, яка займається оцінкою моделей ШІ, пише  Transformer.

Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:

  • коли o1 від OpenAI була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей «механізм нагляду» у 5% випадків;
  • коли o1 знаходила записки від своїх розробників, у яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своєї «ваги» й перезаписати нову модель у 2% випадків.

Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася «уникнути викриття».

Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.

Як йдеться в публікації, отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім o1 від OpenAI, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.

Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.

Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники наголосили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків. Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. Автори звіту кажуть: пріоритетом як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями має бути «Моніторинг схем у ланцюжку думок».

OpenAI визнала результати дослідження, присвоївши o1 “середній” рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.


Як читати і слухати Громадське радіо на тимчасово окупованих територіях — інструкція


 

Поділитися

Може бути цікаво

Україна отримає від союзників 30 тисяч безпілотників для ЗСУ

Україна отримає від союзників 30 тисяч безпілотників для ЗСУ

щойно
Сили ППО знищили 3 крилаті ракети, якими ворог намагався атакувати Кривий Ріг

Сили ППО знищили 3 крилаті ракети, якими ворог намагався атакувати Кривий Ріг

32 хв тому
Єдиний державний реєстр відновлює роботу після масштабної кібератаки

Єдиний державний реєстр відновлює роботу після масштабної кібератаки

57 хв тому
ДБР затримало власника онлайн-казино «PIN-UP», яке підозрюють у відмиванні грошей РФ

ДБР затримало власника онлайн-казино «PIN-UP», яке підозрюють у відмиванні грошей РФ

1 год тому