БЛОГ

Матеріали з дослідження, розробки та навчання ШІ

Світ очима ШІ: техніка Grad CAM

Середовище штучного інтелекту (ШІ) постійно розвивається, у зв’язку з чим зрозуміти те, як машина приймає рішення, часто може видатись складним завданням. Моделі ШІ, особливо глибокі нейронні мережі, надзвичайно потужні, але можуть здаватися чорними скриньками, коли мова йде про інтерпретацію їхньої внутрішньої роботи. Саме тут на допомогу приходить техніка Grad CAM (Grad-weighted Class Activation Mapping), яка пропонує рішення для розгадки таємниць прийняття рішень штучним інтелектом.

Що таке Grad CAM?

Grad CAM – це техніка, яка допомагає зрозуміти, як модель глибинного навчання формує свої висновки, особливо в задачах комп’ютерного зору. Її було представлено дослідниками в статті "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization" у 2017 році. Grad CAM широко використовується для візуалізації та інтерпретації міркувань щодо прогнозів моделі, що робить його цінним інструментом як для дослідників, так і практиків у сфері ШІ.

Як працює Grad CAM?

Огляд Grad-CAM від Ramprasaath R. Selvaraju та ін. на arxiv.org
Огляд Grad-CAM від Ramprasaath R. Selvaraju та ін. на arxiv.org

По суті, Grad CAM генерує теплову карту, яка виділяє області вхідного зображення, які найбільше впливають на рішення моделі. Ось спрощене пояснення того, як це працює:

Прямий перехід: у процесі логічного висновку вхідне зображення проходить через глибинну нейронну мережу, у результаті чого створюється прогноз для певного класу чи категорії.

Зворотне розповсюдження: Grad CAM використовує градієнти, що проходять через мережу в зворотному напрямку. Ця техніка обчислює градієнти прогнозованої оцінки класу щодо карти ознак останнього згорткового шару.


Обчислення вагових коефіцієнтів: градієнти піддаються процесу глобального усереднення за розмірами ширини (позначеної "i") і висоти (позначеної "j"). Цей процес об’єднання використовується для обчислення вагових коефіцієнтів значимості.


Генерація теплової карти: після визначення вагових коефіцієнтів, наступним кроком є виконання зваженої суми карт ознак в останньому шарі згортки. На цьому етапі Grad CAM створює теплову карту, де виділено області зображення, які найбільше вплинули на рішення моделі.


Застосування Grad CAM

Grad CAM застосовується в різних галузях, зокрема:

Медична візуалізація: для візуалізації ділянок зображення, на основі яких був поставлений діагноз або визначена класифікація, що дозволяє лікарям зрозуміти медичні діагнози, поставлені за допомогою ШІ.

Автономні транспортні засоби: для усвідомлення того, як самокеровані автомобілі сприймають і реагують на навколишнє середовище, покращуючи безпеку на дорогах.

Обробка природної мови: для адаптації технік, подібних до Grad CAM, з метою пояснення текстових моделей ШІ і покращення інтерпретації завдань обробки природної мови (NLP).

Етика штучного інтелекту: для вирішення проблем упередженості та справедливості шляхом виявлення проблемних областей у вхідних даних.

Висновок

Grad CAM – це техніка, яка дає нам змогу зазирнути в процес прийняття рішень моделями ШІ, особливо в галузі комп’ютерного зору. Її здатність генерувати інтуїтивно зрозумілі теплові карти зробила її цінним інструментом як для теоретичного, так і для практичного застосування, сприяючи прозорості процесу, пошуку багів, локалізації об’єктів на зображеннях та етичному розвитку штучного.

Отже, наступного разу, коли ви будете спантеличені рішенням ШІ, пам'ятайте, що Grad CAM може бути ключем до розкриття таємниці, що стоїть за цим рішенням.

Дізнайтесь більше корисної інформації про використання технологій ШІ для комп’ютерного зору тут.

Лідія Качмарська, data scientist