Новини

Свіжі новини та корисні статті про штучний інтелект і машинне навчання

Самонавчальний ШІ переосмислює комп’ютерний зір

Самонавчання (Self-Supervised Learning, SSL) стрімко змінює сферу штучного інтелекту, дозволяючи моделям навчатися на величезних масивах необроблених даних без дороговартісної ручної розмітки. Хоч цей підхід уже привів до прориву в розробці мовних моделей, в комп’ютерному зорі його потенціал залишався майже невикористаним – до тепер.

Компанія Meta AI представила DINOv3 – нове покоління в сімействі моделей комп’ютерного зору DINO, що стало новою віхою розвитку в самоконтрольованому навчанні. Створена на основі багаторічних досліджень, модель DINOv3 масштабує SSL до безпрецедентного рівня, створюючи універсальні основи для комп’ютерного зору, які встановлюють нові стандарти в широкому діапазоні завдань.

Модель DINOv3 навчена на 1,7 млрд зображень та має до 7 млрд параметрів, при цьому використовуючи значно менше обчислювальних ресурсів, ніж популярні методи на кшталт CLIP. Незважаючи на те, що під час оцінки базова модель залишається незмінною, вона досягає або перевершує найкращі результати у таких сферах:

  • Класифікація зображень
  • Семантична сегментація
  • Виявлення об’єктів
  • Відстеження об’єктів у відео
  • Оцінка відносної глибини

Вперше доведено, що моделі, навчені за допомогою SSL, можуть стабільно перевершувати слабо контрольовані підходи як у загальних завданнях, так і в завданнях щільного прогнозування.

Однією з ключових інновацій DINOv3 є новий метод, який називається Gram anchoring. Зазвичай масштабування самоконтрольованих моделей призводило до поступового погіршення якості карт щільності ознак під час тривалих тренувань. Нова методика Gram anchoring вирішує цю проблему, очищуючи та стабілізуючи ознаки. Це дозволяє надійно працювати з геометричними задачами, такими як 3D-збіг або оцінка глибини. Цей прогрес дозволяє DINOv3 підтримувати високоякісні представленням щільності, які ефективно узагальнюються, в різних сферах: від зображень природи до медичних знімків та супутникових даних.

Гнучкість DINOv3 вже продемонстрована в застосунках з високим рівнем впливу. Наприклад:

  1. Моніторинг довкілля: Інститут світових ресурсів використовує DINOv3 для відстеження вирубки лісів із надзвичайною точністю. У Кенії середня похибка у визначенні висоти крони дерев зменшилась з 4,1 м (DINOv2) до лише 1,2 м. Це революційне поліпшення, яке допомагає автоматизувати фінансування заходів з боротьби зі зміною клімату та підтримувати місцеві проєкти з відновлення.
  2. Дослідження космосу: Лабораторія реактивного руху NASA застосувала попередні моделі DINO для роботизованих досліджень на Марсі, де ефективні багатозадачні системи зору мають вирішальне значення для середовищ з обмеженими ресурсами.
  3. Медицина та наука: Завдяки навчанню без метаданих модель DINOv3 відкриває шлях до SSL у таких галузях, як медична візуалізація, біологія та астрономія, де анотації є рідкісними або надто дорогими.

Хоча версія DINOv3 з 7 мільярдами параметрів – це флагман, не всі програми можуть дозволити собі її обчислювальні вимоги. Щоб задовольнити різноманітні потреби, дослідники виокремили знання великої моделі у сімейство менших варіантів, серед яких:

  • Моделі ViT-B та ViT-L, які досягають майже рівності з моделлю 7B за багатьма показниками.
  • Архітектури на основі ConvNeXt, оптимізовані для пристроїв із обмеженими ресурсами.

Це означає, що розробники можуть використовувати основи DINOv3 у всьому: від хмарних платформ візуалізації до периферійних пристроїв з обмеженими обчислювальними можливостями.

DINOv3 – не просто ще один крок уперед, а зміна парадигми в комп’ютерному зорі. Довівши, що самоконтрольоване навчання може перевершити традиційні контрольовані та слабо контрольовані стратегії в масштабі, модель відкриває шлях до:

  • Швидшого навчання без дорогої ручної анотації.
  • Більш універсальних моделей, що адаптуються до різних галузей.
  • Масштабованого застосування у реальних умовах.

Meta AI вже відкрила доступ до навчального коду, попередньо навчених моделей та документації, щоб дослідники й розробники могли будувати на цій основі нові рішення для науки, промисловості та проєктів у гуманітарній сфері.