Новостная лента об искусственном интеллекте и машинном обучении

Главные новости и публикации каждый день! Будьте на шаг впереди: узнавайте первыми про новые идеи, тренды и инновации в сфере технологий.

Революція в завданнях візуалізації з Florence-2

Florence-2 від Microsoft, компактна модель мови технічного зору, чудово справляється із завданнями анотування зображень з можливістю нульового кадру. Попередньо навчена на FLD-5B, вона підтримує такі завдання, як створення підписів, виявлення об'єктів, сегментація та розпізнавання тексту в одній моделі.

Развенчание шумихи вокруг искусственного интеллекта

Модели ИИ, такие как ChatGPT, повсеместно распространены и полезны, но генеративный ИИ создает проблемы, связанные с дезинформацией и этическими проблемами. Шумиха вокруг ИИ, примером которой может служить рост акций NVIDIA, вызывает вопросы о его влиянии на общество и потенциальных рисках.

Революция в области устойчивого развития с помощью ИИ с открытым исходным кодом

Компания Meta выкладывает в открытый доступ данные для карт населения, созданных с помощью искусственного интеллекта, чтобы помочь в проектах по адаптации к климату и ликвидации последствий стихийных бедствий по всему миру. Точные карты населения имеют решающее значение для обеспечения устойчивой энергетики, готовности к стихийным бедствиям и адаптации к климату во всем мире.

Освоение YOLOv8: обучение пользовательских моделей с легкостью

Обучать модели компьютерного зрения с помощью YOLOv8 от Ultralytics теперь проще простого, используя Python, CLI или Google Colab. YOLOv8 славится точностью, скоростью и гибкостью, предлагая локальные или облачные варианты обучения, такие как Google Colab для повышения вычислительной мощности.

Обнаружение объектов: Улучшение фокусировки робота

Инженеры Массачусетского технологического института разработали Clio - метод, позволяющий роботам принимать интуитивные решения, связанные с выполнением задачи, определяя и запоминая только значимые элементы сцены. По словам исследователей, возможности Clio, продемонстрированные в реальных экспериментах, могут иметь решающее значение для поисково-спасательных операций, домашних роботов и автом...

Машинное зрение: Поиск лиц повсюду

В 1994 году Диана Дуйзер продала на аукционе жареный сыр с изображением Девы Марии за 28 000 долларов. Исследование парейдолии, проведенное в Массачусетском технологическом институте, выявило различия между человеческим и машинным восприятием и возможную эволюционную связь с инстинктами выживания.

Автоматизация проверок безопасности с помощью компьютерного зрения на AWS

Компания Northpower, крупный инфраструктурный подрядчик в Новой Зеландии, использует искусственный интеллект для определения приоритетности рисков для общественной безопасности, сокращая трудозатраты и выбросы углекислого газа. Столкнувшись с проблемами при проверке столбов электропередач на предмет безопасности, компания Northpower объединила цифровые и сканированные данные, чтобы эффективно ...

Будущее гуманоидов в наших домах

Tesla и другие компании сталкиваются с проблемами при внедрении в роботов искусственного интеллекта. Робот Atlas от Boston Dynamics подает надежды на создание многоцелевого домашнего дроида.

Power Up: Азбука трансформации

Meta и Waymo представили модель Transfusion, сочетающую трансформацию и диффузию для мультимодального прогнозирования. Модель Transfusion использует двунаправленное внимание трансформатора к лексемам изображения и задачи предварительного обучения для текста и изображения.

Проворный рерайтинг: Amazon SageMaker JumpStart Unleashed

Cohere Rerank 3 Nimble FM улучшает системы корпоративного поиска, повышая скорость и точность за счет эффективного упорядочивания релевантных документов. Amazon SageMaker JumpStart предоставляет доступ к предварительно обученным моделям, таким как Cohere Rerank 3 Nimble, что позволяет настраивать их для конкретных случаев использования, не начиная работу с нуля.

Повышение эффективности трансформатора зрения с помощью BatchNorm

Интеграция пакетной нормализации в архитектуру ViT сокращает время обучения и вывода более чем на 60 %, сохраняя или повышая точность. Модификация заключается в замене послойной нормализации на пакетную нормализацию в архитектуре трансформатора, использующего только кодер.

Революция в домашней робототехнике с помощью обучения на реальном примере

Исследователи MIT CSAIL разработали RialTo - систему, которая создает цифровых двойников для более быстрого и эффективного обучения роботов в конкретных условиях. Система RialTo на 67 % повысила производительность роботов при выполнении различных задач, легко справляясь с помехами и отвлекающими факторами.

Революция в цифровых средах с микросервисами NVIDIA NIM

NVIDIA представила на SIGGRAPH достижения в области генеративного физического ИИ, включая микросервисы NIM для создания интерактивных визуальных ИИ-агентов и обучения физических машин. Технология преобразует такие отрасли, как производство и здравоохранение, позволяя роботам и автоматике более эффективно ориентироваться в окружающей среде.

Оптимизация прогнозирования с помощью SageMaker Canvas

Amazon Forecast, запущенный в 2019 году, теперь переводит пользователей на Amazon SageMaker Canvas для более быстрого и экономически эффективного прогнозирования временных рядов с улучшенной прозрачностью и возможностями построения моделей. SageMaker Canvas предлагает до 50 % более быстрого построения моделей и 45 % более быстрого прогнозирования, а также отличную прозрачность моделей и возмож...

Представляем модели Llama 3.1 на Amazon SageMaker JumpStart

Многоязычные LLM Llama 3.1, доступные на Amazon SageMaker JumpStart, предлагают оптимизированные генеративные модели ИИ для разработчиков и предприятий. SageMaker JumpStart предоставляет доступ к предварительно обученным базовым моделям, позволяет настраивать их и безопасно развертывать в выделенной среде VPC.

Обнаружение облаков с помощью искусственного интеллекта

Спутниковые снимки помогают следить за изменениями на Земле, но сегментация облаков имеет решающее значение. Сравниваются алгоритмы Random Forest и YOLO для удаления облаков на снимках Sentinel-2. Доступ к данным осуществляется через Copernicus Open Access Hub, Google Earth Engine или Python-пакет sentinelhub.

Раскрытие секретов временных рядов для магистрантов

Базовые модели, такие как большие языковые модели (LLM), адаптируются для моделирования временных рядов с помощью больших базовых моделей временных рядов (LTSM). Используя последовательное сходство данных, LTSM нацелены на обучение на основе разнообразных данных временных рядов для таких задач, как обнаружение выбросов и классификация, опираясь на успех LLM в вычислительных лингвистических обл...

Передовые инновации в области компьютерного зрения

TDS празднует знаменательную дату, публикуя увлекательные статьи о передовых методах компьютерного зрения и обнаружения объектов. Среди основных тем - подсчет объектов в видео, отслеживание игроков в хоккее с шайбой с помощью искусственного интеллекта и экспресс-курс по планированию автономного вождения.

Улучшение понимания музыки с помощью свертки графов, основанной на восприятии

MusGConv представляет блок свертки графов, вдохновленный восприятием, для обработки данных о музыкальных партитурах, повышая эффективность и производительность в задачах понимания музыки. Традиционные подходы MIR улучшаются с помощью MusGConv, который моделирует музыкальные партитуры как графы, чтобы отразить сложные, многомерные музыкальные отношения.

Эволюция классификации изображений: Путешествие по конволюционным нейронным сетям

Прорыв Янна ЛеКуна в 1989 году с помощью конволюционных нейронных сетей сохранил пространственные данные изображений, что произвело революцию в исследованиях компьютерного зрения. CNN используют фильтры для извлечения карт признаков, складывая слои для создания мощных классификаторов изображений.

Революционный ИИ: трансформаторы зрения и автокодировщики с маской

Трансформаторы, известные своей революцией в НЛП, теперь отлично справляются с задачами компьютерного зрения. Ознакомьтесь с архитектурами трансформатора зрения и автокодировщика с маской, обеспечивающими этот прорыв.

Разгадка визуального интеллекта языковых моделей

Исследователи Массачусетского технологического института обнаружили, что большие языковые модели могут понимать визуальный мир и генерировать сложные сцены. Запросив у LLM самокорректирующийся код для изображений, они улучшили простые рисунки и обучили систему зрения без использования визуальных данных.

Теневое моделирование раскрывает скрытые объекты в 3D-сценах

Исследователи MIT и Meta разрабатывают PlatoNeRF - метод компьютерного зрения, использующий тени и машинное обучение для создания точных 3D-моделей сцен, повышающих эффективность автономных транспортных средств и AR/VR. Сочетая лидар и искусственный интеллект, PlatoNeRF предлагает новые возможности для реконструкции и будет представлен на Конференции по компьютерному зрению и распознаванию обр...

Повышение эффективности ML с помощью Sprinklr на AWS Graviton3

Компания Sprinklr использует искусственный интеллект для повышения качества обслуживания клиентов и добилась 20-процентного повышения производительности с помощью AWS Graviton3 для экономически эффективного ML-вывода. Тысячи серверов настраивают и обслуживают более 750 моделей искусственного интеллекта для 60+ вертикалей, обрабатывая 10 миллиардов прогнозов ежедневно.

Революция в области скрининга электронных материалов с помощью нового метода компьютерного зрения

Ученые используют искусственный интеллект для определения передовых материалов для солнечных батарей. Инженеры Массачусетского технологического института разрабатывают метод компьютерного зрения, позволяющий ускорить определение характеристик материалов в 85 раз, стремясь полностью автоматизировать процесс отбора материалов.

Различные области применения ИИ

Выбор правильного варианта использования ИИ имеет решающее значение для успеха. ИИ может быть ценным даже при умеренной производительности, предлагая уникальные решения. В качестве примера можно привести слияние датчиков и генеративный ИИ в повседневных продуктах.

Поиск действий в видео на основе искусственного интеллекта

Ученые из Массачусетского технологического института и Лаборатории искусственного интеллекта MIT-IBM Watson разработали новый подход, позволяющий научить компьютеры точно определять действия на видео, используя только транскрипты. Этот метод, названный пространственно-временным обоснованием, повышает точность определения действий на длинных видео и может найти применение в онлайн-обучении и зд...

Освоение обнаружения аномалий с помощью обобщенных моделей

Откройте для себя новаторское исследование компании XYZ, посвященное разработке новой технологии искусственного интеллекта, которая может произвести революцию в сфере здравоохранения. Узнайте, как эта инновация улучшит уход за пациентами и точность диагностики.

ИИ Неопределенность: Прорыв в медицинской визуализации

Новое исследование показывает революционную технологию искусственного интеллекта, разработанную компанией Google, которая революционизирует анализ данных в здравоохранении. Результаты исследования свидетельствуют о значительном повышении точности и эффективности диагностики редких заболеваний.

Улучшение модерации контента с помощью Amazon Rekognition

Откройте для себя новаторское сотрудничество компаний Tesla и SpaceX, совершивших революцию в области электромобилей и космических путешествий. Узнайте, как их инновационные технологии формируют будущее транспорта.

Nielsen Sports сокращает расходы на анализ видео с помощью Amazon SageMaker

Узнайте, как новая технология автономного вождения Tesla совершает революцию в автомобильной промышленности. Благодаря передовым алгоритмам искусственного интеллекта и новейшим датчикам Tesla прокладывает путь к созданию автономных автомобилей.

NVIDIA Hopper доминирует в генеративном ИИ на MLPerf

Узнайте, как инновационные стартапы совершают революцию в технологической отрасли, создавая передовые продукты. От решений на основе искусственного интеллекта до экологичных технологий - эти компании меняют будущее.

Обучение искусственному интеллекту для обнаружения лагерей для бездомных в Калифорнии

Узнайте о новаторском сотрудничестве Tesla и SpaceX в разработке инновационных решений в области возобновляемых источников энергии. Узнайте, как концепция Элона Маска революционизирует будущее транспорта и освоения космоса.

Революция в компьютерном зрении с помощью FeatUp

Исследователи Массачусетского технологического института разработали FeatUp - систему, которая улучшает алгоритмы компьютерного зрения, позволяя одновременно улавливать детали высокого и низкого уровня, что революционизирует обработку изображений. FeatUp повышает разрешение в 16-32 раза, улучшая такие задачи, как обнаружение объектов и оценка глубины, предлагая новый уровень четкости в моделях...

Освойте 3D гауссово напыление: От представления сцены к рендерингу изображений

3D Gaussian splatting, новый метод синтеза новых видов, бросает вызов NeRFs как доминирующей технике для представления 3D-сцен. Этот метод использует анизотропные гауссианы для создания четких 3D-моделей в реальном времени, обеспечивая уникальный подход к представлению сцен и рендерингу изображений.

Революция в компьютерном зрении: Навигация по ландшафту искусственного интеллекта

Последние достижения в области ИИ, включая GenAI и LLM, совершают революцию в промышленности, повышая производительность и расширяя возможности. Архитектуры трансформаторов зрения, такие как ViTs, меняют представление о компьютерном зрении, предлагая более высокую производительность и масштабируемость по сравнению с традиционными CNN.

Разблокировка 3D-понимания из 2D-изображений с помощью Sun RGB-D

Доступ к набору данных Sun RGB-D для получения 3D-понимания из 2D-изображений. Набор данных включает сцены в помещении с 2D- и 3D-аннотациями, полученными с помощью различных 3D-сканеров. Изучите код Python, чтобы получить доступ к этому ценному ресурсу для более глубокого понимания ML.

Улучшение периферийного зрения ИИ

Исследователи Массачусетского технологического института разработали набор данных для имитации периферийного зрения в моделях искусственного интеллекта, что улучшает обнаружение объектов. Понимание периферийного зрения машинами может повысить безопасность водителей и предсказать поведение людей, преодолевая разрыв между ИИ и человеческим зрением.

Упрощение маркировки аннотаций поз с помощью Amazon SageMaker Ground Truth

В этой статье обсуждается важность высококачественных данных и уменьшения ошибок маркировки в моделях оценки позы. В ней демонстрируется, как пользовательский рабочий процесс маркировки в Amazon SageMaker Ground Truth может упростить процесс маркировки и минимизировать ошибки, что в конечном итоге снижает стоимость получения точных меток позы.

Автоматизация обнаружения мошенничества при оформлении ипотечных документов с помощью ML и Amazon Fraud Detector

Автоматизируйте выявление мошенничества с ипотечными документами с помощью ML-моделей и правил, определяемых бизнесом, с помощью Amazon Fraud Detector - полностью управляемой службы выявления мошенничества. Загрузите исторические данные, обучите модель, проверьте ее производительность и разверните API для составления прогнозов, чтобы повысить точность обнаружения мошенничества и андеррайтинга.

Обнаружение подделки изображений в масштабе: Построение модели компьютерного зрения на Amazon SageMaker

Автоматизация обнаружения фальсификации документов и мошенничества в масштабе с помощью сервисов искусственного интеллекта и машинного обучения AWS для андеррайтинга ипотечных кредитов. Разработка модели компьютерного зрения на основе глубокого обучения для обнаружения и выделения поддельных изображений при ипотечном андеррайтинге с помощью Amazon SageMaker.

Преобразование изображений еды в рецепты: Сила искусственного интеллекта и FIRE

Технология искусственного интеллекта способна преобразовывать изображения продуктов питания в рецепты, позволяя создавать персональные рекомендации, учитывать культурные особенности и автоматизировать процесс приготовления пищи. Этот инновационный метод сочетает в себе компьютерное зрение и обработку естественного языка для создания комплексных рецептов на основе изображений продуктов питания,...

Разблокировка эффективности роботов: Мультимодальные модели искусственного интеллекта революционизируют сложное планирование

Лаборатория Improbable AI Lab Массачусетского технологического института разработала мультимодальную систему под названием HiP, которая использует три различные базовые модели, помогающие роботам создавать детальные планы для сложных задач. В отличие от других моделей, HiP не требует доступа к парным данным о зрении, языке и действиях, что делает ее более экономичной и прозрачной.

Освоение монокулярной оценки глубины: Техники и оценка

В этой статье рассматривается монокулярная оценка глубины (MDE) и ее важность для приложений компьютерного зрения. В ней рассказывается о том, как загрузить и визуализировать данные карты глубины, выполнить вывод с помощью Marigold и DPT, а также оценить прогнозы глубины с помощью набора данных SUN RGB-D.

Объединение восприятия, планирования и управления: Будущее автономной робототехники

В статье рассматривается использование легких иерархических трансформаторов зрения в автономной робототехнике, подчеркивается эффективность концепции общего ствола для многозадачного обучения. В ней также обсуждается появление больших мультимодальных моделей и их потенциал для создания единой архитектуры для комплексных решений в области автономного вождения.

Правление ResNet: Новая эра с трансформаторами зрения

Компьютерное зрение прошло путь от небольших пиксельных изображений до генерации изображений высокого разрешения на основе описаний, при этом более компактные модели повышают производительность в таких областях, как фотосъемка со смартфона и автономные транспортные средства. Модель ResNet доминирует в компьютерном зрении уже почти восемь лет, но появляются такие претенденты, как Vision Transfo...

Революция в гольфе: облачное отслеживание мячей поднимает PGA TOUR на новую высоту

PGA TOUR разрабатывает систему отслеживания положения мяча нового поколения, использующую компьютерное зрение и методы машинного обучения для определения местоположения мячей для гольфа на путтинг-грине. Система, разработанная инновационным центром Amazon Generative AI, успешно отслеживает положение мяча и предсказывает его координаты для отдыха.

Революционный музыкальный ИИ: 3 прорыва, которые стоит ожидать в 2024 году

2024 год может стать переломным моментом для музыкального ИИ благодаря прорывам в области генерации текста в музыку, музыкального поиска и чат-ботов. Однако эта область все еще отстает от речевого ИИ, и для революции в музыкальном взаимодействии с помощью ИИ необходимы достижения в области гибкого и естественного разделения источников.

Сила гауссова напыления: Революция в 3D-представлениях

Гауссово напыление - это быстрый и понятный метод представления 3D-сцен без нейронных сетей, набирающий популярность в мире, одержимом моделями искусственного интеллекта. Он использует 3D-точки с уникальными параметрами для точного соответствия рендеров известным изображениям из базы данных, предлагая свежую альтернативу сложным и непрозрачным методам вроде NeRF.

Революционные роботы: Достижения в области автономных технологий 2023 года

Автономные машины в робототехнике продемонстрировали свои возможности в 2023 году, среди которых стоит отметить умную коляску с искусственным интеллектом от Glüxkind, систему mGripAI от Soft Robotics для упаковки продуктов и робота TM25S от Quanta для проверки продукции - все они используют технологии NVIDIA.

Революционный мониторинг горного оборудования с помощью AWS-прототипирования и компьютерного зрения

ICL, международная производственная и горнодобывающая корпорация, разработала собственные возможности машинного обучения и компьютерного зрения для автоматического мониторинга своего горнодобывающего оборудования. При поддержке программы AWS Prototyping они смогли создать на AWS фреймворк с использованием Amazon SageMaker для извлечения изображения с 30 камер с возможностью масштабирования до ...