Новини

Свіжі новини та корисні статті про штучний інтелект і машинне навчання

Новий метод для підвищення точності комп'ютерного зору

Представлений підхід використовує синтетичні дані для підвищення точності моделей штучного інтелекту, що розпізнають зображення.

Для того, щоб модель машинного навчання могла виконувати завдання діагностики захворювань на основі медичних зображень, її необхідно цьому навчити. Навчання моделі класифікації зображень зазвичай потребує величезного набору даних, мільйонів прикладів подібних зображень. І тут виникають проблеми.

Використання даних з реальних медичних зображень не завжди етично. Адже це може бути втручанням у приватне життя людей, порушенням авторського права, або взагалі такий набір даних може виявитися упередженим щодо певної расової чи етнічної групи. Для мінімізації цих ризиків можна відмовитися від набору даних з реальними зображеннями і натомість використовувати програми генерації зображень. Такий підхід дозволить створити синтетичний набір даних для навчання моделі класифікації зображень. Проте ці методи обмежені, оскільки часто потрібні експертні знання для ручної розробки програм генерації зображень, які б могли створювати ефективні навчальні дані.

Дослідники з Массачусетського технологічного інституту, Лабораторії штучного інтелекту Watson AI Lab при Массачусетському технологічному інституті IBM та з інших країн проаналізували всі проблеми, що виникають під час створення наборів даних із зображеннями, та представили інше вирішення задачі. Вони відмовилися від розробки індивідуальної програми генерації зображень та зібрали велику колекцію базових програм генерації зображень для конкретної навчальної задачі із загальнодоступних програм в Інтернеті.

Їхній набір налічував 21 000 різних програм, які здатні створювати зображення простих текстур та кольорів. Програми були невеликими, зазвичай їх код займав лише кілька рядків. Дослідники не змінювали ці програми та одразу використовували їх для генерації набору зображень.

Цей набір даних вони застосували для навчання моделі комп'ютерного зору. За результатами тестування з'ясувалося, що моделі, навчені на такому наборі даних, класифікували зображення більш точно, ніж інші синтетично навчені моделі. І при цьому такі моделі все ще поступалися моделям, які навчені на реальних даних. Також дослідники з'ясували, що збільшення кількості програм обробки зображень у наборі даних збільшує продуктивність моделі, завдяки чому можна досягти більш високої точності.

Виявилося, що використання великої кількості програм, які не потребують додаткової роботи з ними, насправді є кращим, ніж використання невеликого набору програм, котрі потребують додаткової обробки. Дані, безумовно, важливі, але цей експеримент продемонстрував, що і без реальних даних можна досягти хороших результатів.

Дослідження вчених дає змогу переосмислити процес попередньої підготовки даних. Моделі машинного навчання, як правило, попередньо навчені. Вони спочатку навчаються на одному наборі даних, створюють параметри, а потім їх можна використовувати для вирішення інших задач.

Так, наприклад, модель, яка призначена для класифікації рентгенівських знімків, спочатку може бути навчена з використанням величезного набору даних із синтетично згенерованих зображень. І лише потім для виконання свого реального завдання вона буде навчена із застосуванням набагато меншого набору даних із реальних рентгенівських знімків. Проблема такого методу полягає в тому, що синтетичні зображення мають відповідати певним властивостям реальних зображень. А це, у свою чергу, вимагає додаткової роботи з програмами, які генерують такі синтетичні зображення. Це ускладнює процес навчання таких моделей.

Натомість дослідники з Лабораторії штучного інтелекту Watson AI Lab у своїй роботі використовували прості програми для генерації зображень. Їх було дуже багато взято з Інтернету. Програми мали швидко генерувати зображення, тому обиралися ті, які написані простою мовою програмування і містили лише кілька фрагментів коду. Вимоги до генерації також були досить прості: це були зображення, які виглядають як абстрактне мистецтво.

Ці програми працювали так швидко, що не було потреби заздалегідь готувати набір зображень для навчання моделі. Програми генерували зображення і модель відразу ж на них навчалася. Це дуже спрощує процес.

Вчені застосували свій величезний набір програм генерації зображень для попередньої підготовки моделей комп'ютерного зору як контрольованих, так і неконтрольованих завдань класифікації зображень. Під час навчання з вчителем дані зображення позначаються, а під час навчання без вчителя модель вчиться класифікувати зображення без міток.

Коли вони порівняли свої заздалегідь навчені моделі з сучасними моделями комп'ютерного зору, які були попередньо навчені з використанням синтетичних даних, їх моделі виявилися більш точними, вони частіше розміщали зображення в правильні категорії. Хоча рівень точності все ще був нижчим, ніж у моделей, навчених на реальних даних, цей метод скоротив розрив у продуктивності між моделями, навченими на реальних даних та на синтетичних даних, на 38 відсотків.

Ця робота також демонструє, що для кількості програм, які будуть обрані, продуктивність збільшується логарифмічно. Якщо зібрати більше програм, модель працюватиме ще краще. Таким чином, дослідники наголошують, що є спосіб розширити їхній підхід.

Щоб визначити чинники, що впливають на точність моделі, кожну програму генерації зображень дослідники використовували окремо для попереднього навчання. Вони виявили, що чим різноманітніший набір зображень генерує програма, тим краще працює модель. Також було помічено, що кольорові зображення, що заповнюють все полотно, кращі для підвищення продуктивності моделі.

Такий підхід до попереднього навчання виявився досить успішним. Дослідники планують застосувати свої методи на інших типах даних, таких як мультимодальні дані, що включають текст та зображення. Вони хочуть продовжити вивчення способів підвищення продуктивності класифікації зображень.

Посилання на дослідження тут.