Purple Llama від Meta перевірятиме ризики ШІ

  • 11 Грудня 2023

У компанії стверджують, що це перший комплекс оцінок кібербезпеки LLM.

Purple Llama від Meta перевірятиме ризики ШІ зображення

Створений на запит Білого Дому пакет безпекових та оцінювальних інструментів для генеративного ШІ від Meta отримав назву Purple Llama, що походить від поєднання кольорів Червоної й Синьої команди (Red Team і Blue Team) та великих мовних моделей (LLM), на яких навчається ШІ. Червона команда – це атаки на ШІ розробниками й тестувальниками з метою виявлення помилок і небажаних результатів, та уникнення функціональних збоїв. Синя ж відповідає на атаки Червоної команди, визначаючи стратегії пом’якшення загроз. Для мінімізації проблем, пов’язаних із генеративним ШІ, потрібне поєднання атакувальних і захисних заходів. Комплекс Purple Llama містить метрики для кількісної оцінки кібербезпеки LLM та інструменти для оцінки частоти небезпечних речень коду і ускладнення генерації шкідливого коду.     

Першим кроком у проєкті Purple Llama стане перевірка вразливостей кібербезпеки у моделях, що генерують ПЗ; основна його мета – інтеграція системи в робочі процеси моделей ШІ для зменшення видачі небажаних результатів, помилок і небезпечного коду. У межах проєкту Purple Llama Meta співпрацює з іншими розробниками ШІ, як-от Microsoft, хмарними сховищами Google Cloud та AWS, і розробниками чипів, серед яких Intel, AMD і Nvidia. Така кооперація, на думку представників компанії Meta, зміцнить довіру і до розробників, і до моделей ШІ, створених з позиції відповідальності.          

Email розсилка