Новости

Свежие новости и полезные статьи про искусственный интеллект и машинное обучение

Самообучающийся ИИ переосмысливает компьютерное зрение

Самообучение (Self-Supervised Learning, SSL) стремительно меняет сферу искусственного интеллекта, позволяя моделям обучаться на огромных массивах необработанных данных без дорогостоящей ручной разметки. Хотя этот подход уже привел к прорыву в разработке языковых моделей, в компьютерном зрении его потенциал оставался почти неиспользованным – до сих пор.

Компания Meta AI презентовала DINOv3 – новое поколение в семействе моделей компьютерного зрения DINO, которое стало новой вехой развития в самоконтролируемом обучении. Созданная на основе многолетних исследований, модель DINOv3 масштабирует SSL до беспрецедентного уровня, создавая универсальные основы для компьютерного зрения, которые устанавливают новые стандарты в широком диапазоне задач.

Модель DINOv3 обучена на 1,7 млрд изображений и имеет до 7 млрд параметров, при этом используя значительно меньше вычислительных ресурсов, чем популярные методы типа CLIP. Несмотря на то, что при оценке базовая модель остается неизменной, она достигает или превосходит лучшие результаты в следующих областях:

  • Классификация изображений
  • Семантическая сегментация
  • Обнаружение объектов
  • Отслеживание объектов в видео
  • Оценка относительной глубины

Впервые доказано, что модели, обученные с помощью SSL, могут стабильно превосходить слабо контролируемые подходы как в общих задачах, так и в задачах плотного прогнозирования.

Одной из ключевых инноваций DINOv3 является новый метод, называемый Gram anchoring. Обычно масштабирование самоконтролируемых моделей приводило к постепенному ухудшению качества карт плотности признаков во время длительных тренировок. Новая методика Gram anchoring решает эту проблему, очищая и стабилизируя признаки. Это позволяет надежно работать с геометрическими задачами, такими как 3D-совпадение или оценка глубины. Этот прогресс позволяет DINOv3 поддерживать высококачественные представления плотности, которые эффективно обобщаются, в различных сферах: от изображений природы до медицинских снимков и спутниковых данных.

Гибкость DINOv3 уже продемонстрирована в приложениях с высоким уровнем воздействия. Например:

  1. Мониторинг окружающей среды: Институт мировых ресурсов использует DINOv3 для отслеживания вырубки лесов с беспрецедентной точностью. В Кении средняя погрешность в определении высоты кроны деревьев уменьшилась с 4,1 м (DINOv2) до всего 1,2 м. Это революционное улучшение, которое помогает автоматизировать финансирование мероприятий по борьбе с изменением климата и поддерживать местные проекты по восстановлению.
  2. Исследование космоса: Лаборатория реактивного движения NASA применила предварительные модели DINO для роботизированных исследований на Марсе, где эффективные многозадачные системы зрения имеют решающее значение для среды с ограниченными ресурсами.
  3. Медицина и наука: Благодаря обучение без метаданных модель DINOv3 открывает путь к SSL в таких областях, как медицинская визуализация, биология и астрономия, где аннотации являются редкими или слишком дорогостоящими.

Хотя версия DINOv3 с 7 миллиардами параметров является флагманом, не все программы могут позволить себе ее вычислительные требования. Чтобы удовлетворить разнообразные потребности, исследователи выделили знания большой модели в семейство меньших вариантов, среди которых:

  • Модели ViT-B и ViT-L, которые достигают почти равенства с моделью 7B по многим показателям.
  • Архитектуры на основе ConvNeXt, оптимизированные для устройств с ограниченными ресурсами.

Это означает, что разработчики могут использовать основы DINOv3 во всем: от облачных платформ визуализации до периферийных устройств с ограниченными вычислительными возможностями.

DINOv3 – не просто еще один шаг вперед, а смена парадигмы в компьютерном зрении. Доказав, что самоконтролируемое обучение может превзойти традиционные контролируемые и слабо контролируемые стратегии в масштабе, модель открывает путь к:

  • Более быстрому обучению без дорогостоящей ручной аннотации.
  • Более универсальным моделям, адаптирующихся к различным отраслям.
  • Масштабируемому применению в реальных условиях.

Meta AI уже открыла доступ к обучающему коду, предварительно обученным моделям и документации, чтобы исследователи и разработчики могли на этой основе создавать новые решения для науки, промышленности и проектов в гуманитарной сфере.