Новости мира об искусственном интеллекте и машинном обучении

Qudata

Август 19, 2025

Максимальная локализация документов с Amazon Nova

Обработка корпоративных документов сталкивается с проблемами точного определения местоположения и извлечения определенных полей. Традиционные решения в области компьютерного зрения являются сложными, но мультимодальные крупные языковые модели, такие как Amazon Nova Pro, упрощают высокоточную локализацию полей, сокращая количество ошибок и ручных вмешательств.

ПОДРОБНЕЕ

Июль 24, 2025

Более быстрые пешеходы: Изменение темпа движения пешеходов

Исследование Массачусетского технологического института показывает, что с 1980 по 2010 год скорость передвижения пешеходов в городах северо-востока США увеличилась на 15 %. Общественные пространства теперь больше функционируют как транспортные магистрали, чем как места встреч, что влияет на городское планирование.

ПОДРОБНЕЕ

Июль 7, 2025

Видеомониторинг с искусственным интеллектом в реальном времени с помощью агентов Amazon Bedrock

Организации сталкиваются с проблемами при видеонаблюдении. Amazon Bedrock Agents предлагает решение для анализа в реальном времени, понимания контекста и автоматического реагирования. Эта система повышает безопасность и операционную эффективность в сложных сценариях мониторинга.

ПОДРОБНЕЕ

Июнь 11, 2025

Победа за победой: NVIDIA доминирует в соревнованиях по автономному вождению

NVIDIA второй год подряд побеждает в Autonomous Grand Challenge на CVPR. Представляет обобщенную оценку траектории для более умных и безопасных АВ.

ПОДРОБНЕЕ

Июнь 11, 2025

Возродите свое искусство: Восстановление масок искусственного интеллекта за несколько часов

Аспирант Массачусетского технологического института Алекс Качкин разработал метод физического нанесения цифровых реставраций на оригиналы картин, ускорив процесс в 66 раз. Его инновационный подход позволяет получить четкую цифровую запись изменений в реставрации, что в перспективе позволит вернуть более поврежденные произведения искусства на всеобщее обозрение.

ПОДРОБНЕЕ

Июнь 6, 2025

Улучшение поиска видео с помощью искусственного интеллекта на Amazon SageMaker

Семантический поиск видео с использованием больших моделей зрения позволяет пользователям искать видеоконтент с помощью запросов на естественном языке, улучшая обнаружение и модерацию контента. Большие модели зрения, такие как CLIP, позволяют переносить их в различные задачи компьютерного зрения, революционизируя производительность видеопоиска.

ПОДРОБНЕЕ

Июнь 2, 2025

Улучшение навыков скетчинга в искусственном интеллекте: Обучение искусству рисования, похожего на человеческий

Массачусетский технологический институт и Стэнфорд разрабатывают SketchAgent - систему искусственного интеллекта, которая создает эскизы штрих за штрихом на основе подсказок естественного языка. Инструмент призван революционизировать общение людей с ИИ за счет более естественного и итеративного процесса рисования.

ПОДРОБНЕЕ

Май 22, 2025

ИИ раскрывает связь между зрением и звуком

Исследователи из Массачусетского технологического института улучшают способность ИИ-модели обучаться, как человек, соединяя аудио- и визуальные данные без человеческих меток. Метод повышает точность в задачах поиска видео и классификации действий в аудиовизуальных сценах, открывая новые области применения.

ПОДРОБНЕЕ

Май 21, 2025

Максимальное использование мощности GPU с помощью PyTorch

Узнайте, как использовать возможности графического процессора Nvidia с помощью PyTorch, библиотеки машинного обучения, оптимизированной для работы на GPU. Поддержка CUDA в PyTorch позволяет эффективно манипулировать тензорами, что делает ее идеальной для высоковостребованных вычислительных задач, помимо ML.

ПОДРОБНЕЕ

Май 16, 2025

Оптимизация разработки граничного ИИ с помощью SiMa.ai Edgematic и интеграции с AWS

SiMa.ai и AWS сотрудничают для эффективного развертывания ML-моделей на границе с помощью Amazon SageMaker AI и Palette Edgematic. Оптимизированные модели обнаружения объектов позволяют в режиме реального времени обнаруживать присутствие людей и защитное оборудование на пограничных устройствах для повышения безопасности на рабочем месте.

ПОДРОБНЕЕ

Май 15, 2025

ИИ революционизирует предсказание расположения белков в клетках человека

Новый вычислительный подход предсказывает расположение белков в клетках, помогая в диагностике заболеваний и определении мишеней для лекарств. Исследователи из Массачусетского технологического института, Гарварда и Института Брод разработали метод локализации белков в одной клетке с помощью моделей искусственного интеллекта.

ПОДРОБНЕЕ

Май 14, 2025

Отрицание отрицает успех зрительно-языковой модели

Модели языка зрения с трудом справляются с отрицанием, что сказывается на точности. Исследователи Массачусетского технологического института призывают с осторожностью использовать эти модели вслепую.

ПОДРОБНЕЕ

Май 7, 2025

Освоение цветовых преобразований: RGB в HSV

Понимание хранения и представления изображений является ключевым в компьютерном зрении. Цветовые модели RGB и HSV дают ценные знания для обработки изображений на Python с помощью OpenCV.

ПОДРОБНЕЕ

Май 1, 2025

Создание доверия: ИИ в условиях высоких ставок

ИИ-модель помогает врачам в области медицинской визуализации, генерируя более компактные и надежные наборы прогнозов, повышая эффективность диагностики. Исследователи Массачусетского технологического института разработали метод конформной классификации для повышения точности идентификации заболеваний, представив результаты на крупной конференции.

ПОДРОБНЕЕ

Апрель 16, 2025

Эффективная инвентаризация имущества с помощью компьютерного зрения

Используя генеративный искусственный интеллект и большие языковые модели, поставщики электроэнергии могут упростить управление инвентаризацией активов за счет автоматического извлечения данных из этикеток с помощью компьютерного зрения. Это инновационное решение использует такие сервисы AWS, как Amazon Bedrock и Anthropic's Claude 3, чтобы упростить процесс, позволяя техническим специалистам н...

ПОДРОБНЕЕ

Март 25, 2025

Оптимизация агентских рабочих процессов с помощью микросервисов NVIDIA NIM

Генеративный ИИ улучшает ПК с помощью микросервисов NVIDIA NIM, AI Blueprints и Project G-Assist для повышения доступности и продуктивности. NVIDIA NIM предлагает готовые модели ИИ, оптимизированные для RTX, упрощая разработку ИИ и расширяя инструменты ИИ для ПК.

ПОДРОБНЕЕ

Март 13, 2025

Революционная оценка аэродромов

Рэндалл Питерсен, сотрудник MathWorks в Массачусетском технологическом институте и инженер ВВС США, стремится разработать беспилотные системы для дистанционной оценки аэродромов, уделяя особое внимание обнаружению неразорвавшихся боеприпасов с помощью гиперспектральной съемки. Его междисциплинарный подход и опыт занятий экстремальными видами спорта способствуют передовым исследованиям в MIT.

ПОДРОБНЕЕ

Март 11, 2025

Рецепт инноваций: Преобразование остатков пищи с помощью искусственного интеллекта Amazon

FoodSavr, решение, использующее генеративный искусственный интеллект на базе AWS, рекомендует рецепты на основе содержимого холодильника и продуктов с истекающим сроком годности в местных магазинах, что позволяет сократить количество пищевых отходов и сэкономить деньги. Используя Amazon Rekognition и Amazon Bedrock, пользователи могут загружать изображения холодильника, чтобы получить персонал...

ПОДРОБНЕЕ

Февраль 28, 2025

ViT против CNN: Будущее распознавания изображений

Трансформеры революционизируют НЛП благодаря эффективным механизмам самовнушения. Интеграция трансформаторов в компьютерное зрение сталкивается с проблемами масштабируемости, но многообещающие прорывы уже не за горами.

ПОДРОБНЕЕ

Февраль 14, 2025

Освоение расширенного машинного обучения

Такие достижения науки о данных, как Transformer, ChatGPT и RAG, меняют технологию. Понимание эволюции НЛП является ключевым для начинающих специалистов по работе с данными.

ПОДРОБНЕЕ

Февраль 11, 2025

Раскройте возможности Meta SAM 2.1 в Amazon SageMaker JumpStart!

Meta SAM 2.1, передовая модель сегментации зрения, теперь доступна на Amazon SageMaker JumpStart для различных отраслей. Эта модель предлагает самые современные возможности обнаружения и сегментации объектов с повышенной точностью и масштабируемостью, позволяя организациям эффективно достигать точных результатов.

ПОДРОБНЕЕ

Февраль 7, 2025

Наведение мостов: Создание общего языка

Кайминг Хе из Массачусетского технологического института считает, что ИИ разрушает стены между научными дисциплинами, создавая общий язык для прогресса и сотрудничества. Инструменты ИИ, от AlphaFold до ChatGPT, способствуют прогрессу в таких областях, как предсказание структуры белка и обработка естественного языка.

ПОДРОБНЕЕ

Февраль 6, 2025

Повышение эффективности управления популяциями лосося за счет эффективного сбора данных

Сара Бири применяет компьютерное зрение и машинное обучение для мониторинга миграции лосося, имеющей решающее значение для здоровья экосистемы и культурного значения Тихоокеанского Северо-Запада. Точный подсчет лосося необходим для управления рыболовством в условиях угроз, связанных с деятельностью человека, потерей среды обитания и изменением климата.

ПОДРОБНЕЕ

Февраль 3, 2025

Захватывающие витрины

Достижения в области искусственного интеллекта позволили объединить НЛП и компьютерное зрение, что привело к появлению моделей создания подписей к изображениям, подобных той, что представлена в фильме «Покажи и расскажи». Эта модель сочетает в себе CNN для обработки изображений и RNN для создания текста, используя GoogLeNet и LSTM.

ПОДРОБНЕЕ

Январь 27, 2025

Получение данных об автомобиле из изображений

Создайте систему документирования автомобилей, используя GPT-4, LangChain и Pydantic от OpenAI для извлечения структурированных данных из изображений. Упростите сложные рабочие процессы с помощью LangChain и обеспечьте согласованность выходных данных с помощью Pydantic для удобства последующего использования.

ПОДРОБНЕЕ

Январь 21, 2025

Освойте прогнозирование в розничной торговле с помощью Amazon SageMaker Canvas

Прогнозирование цепочек поставок имеет решающее значение для предприятий, сталкивающихся с нестабильностью рынков. SageMaker Canvas от Amazon Web Services предлагает не требующие кода ML-решения для точного прогнозирования в сфере розничной торговли и производства потребительских товаров.

ПОДРОБНЕЕ

Январь 9, 2025

Человекоподобное общение: Обучение искусственного интеллекта искусству речи

Исследователи MIT CSAIL создали систему искусственного интеллекта, которая имитирует человеческие вокальные звуки без обучения, вдохновляясь когнитивной наукой. Этот прорыв может привести к созданию более интуитивных интерфейсов звукового дизайна, реалистичных персонажей ИИ и инновационных методов изучения языка.

ПОДРОБНЕЕ

Декабрь 20, 2024

Обнаружение слепых пятен: Экологи раскрывают недостатки поиска изображений дикой природы

Наборы данных изображений природы обладают огромным потенциалом для экологов, но системы искусственного интеллекта, называемые мультимодальными моделями языка зрения, могут повысить эффективность поиска изображений. Исследователи Массачусетского технологического института обнаружили, что более крупные VLM отлично справляются с простыми запросами, но с трудом справляются с подсказками экспертно...

ПОДРОБНЕЕ

Декабрь 15, 2024

Ученые Массачусетского технологического института выбраны в качестве стипендиатов AI2050

Преподаватели и выпускники Массачусетского технологического института названы стипендиатами AI2050 2024 года по версии Schmidt Futures для решения сложных проблем ИИ. Дэвид Аутор и Сара Бири в числе лауреатов за инновационные исследовательские проекты в области ИИ.

ПОДРОБНЕЕ

Декабрь 12, 2024

Освоение CV VideoPlayer

CV VideoPlayer, пакет Python для исследований в области компьютерного зрения, упрощает визуализацию и отладку видео с помощью интерактивных функций. Он позволяет легко настраивать оверлеи и редактировать кадры, улучшая процесс разработки для практиков.

ПОДРОБНЕЕ

Декабрь 10, 2024

Представляем Pixtral 12B на Amazon SageMaker JumpStart

Pixtral 12B, передовая модель языка зрения от Mistral AI, превосходит другие модели при решении текстовых и мультимодальных задач. Она имеет новую архитектуру с 400-миллионным кодировщиком зрения и 12-миллиардным декодером трансформации, обеспечивая высокую производительность и скорость понимания изображений и документов.

ПОДРОБНЕЕ

Декабрь 5, 2024

Экономика искусственного интеллекта: более пристальный взгляд

Нобелевский лауреат по экономике Дарон Асемоглу анализирует влияние ИИ на экономический рост и производительность, оценивая скромное увеличение ВВП на 1,1-1,6 % в течение следующего десятилетия. Согласно исследованиям, около 20-23 % рабочих задач в США могут быть автоматизированы с помощью ИИ, а потенциальная экономия средств составит 27 %.

ПОДРОБНЕЕ

Декабрь 5, 2024

Интерактивные беседы с изображениями с помощью мультимодальных LLM

Научитесь общаться с изображениями с помощью Llama 3.2-Vision, передового мультимодального LLM от Meta. Изучите его навыки распознавания и рассуждения на ноутбуке Colab для локального выполнения.

ПОДРОБНЕЕ

Декабрь 3, 2024

ИИ-поддержка продаж компании Syngenta с помощью агентов Amazon Bedrock

Компании Syngenta и AWS совместно разработали ИИ Cropwise на базе Amazon Bedrock Agents, чтобы упростить выбор семян для фермеров и торговых представителей. Генеративный ИИ преобразует процесс принятия решений, предлагая персонализированные рекомендации в масштабах компании для более эффективного и точного процесса выбора.

ПОДРОБНЕЕ

Ноябрь 29, 2024

Раскрытие возможностей мультимодальных вкраплений

Мультимодальные вкрапления объединяют текстовые и графические данные в единую модель, позволяя использовать кросс-модальные приложения, такие как создание подписей к изображениям и модерация контента. CLIP согласовывает представления текста и изображения для классификации изображений по 0-кадрам, демонстрируя возможности общих пространств вкраплений.

ПОДРОБНЕЕ

Ноябрь 25, 2024

Эффективное развертывание моделей Meta Llama 3.1 с помощью AWS Inferentia и Trainium

Модели Meta Llama 3.1 LLM с поддержкой 8B и 70B inference теперь на инстансах AWS Trainium и Inferentia. SageMaker JumpStart предлагает безопасное развертывание предварительно обученных моделей для настройки и доводки.

ПОДРОБНЕЕ

Ноябрь 14, 2024

Оптимизация процесса возмещения ущерба при ДТП с помощью Amazon Bedrock

Решение, использующее генеративный ИИ AWS, например Amazon Bedrock и OpenSearch, упрощает оценку повреждений автомобилей для страховщиков, ремонтных мастерских и менеджеров автопарков. Преобразуя изображения и метаданные в числовые векторы, этот подход упрощает процесс и предоставляет ценные сведения для принятия обоснованных решений в автомобильной промышленности.

ПОДРОБНЕЕ

Ноябрь 6, 2024

Использование возможностей HOG в компьютерном зрении

Гистограмма ориентированных градиентов (HOG) - это ключевой алгоритм извлечения признаков для задач обнаружения и распознавания объектов, использующий величину и ориентацию градиента для создания содержательных гистограмм. Алгоритм HOG включает в себя вычисление градиентных изображений, создание гистограмм градиентов и нормализацию для уменьшения перепадов освещения.

ПОДРОБНЕЕ

Октябрь 28, 2024

Мониторинг моделей в реальном времени с помощью Amazon SageMaker

Индивидуальный мониторинг моделей с помощью Amazon SageMaker имеет решающее значение для сценариев AI/ML в режиме реального времени. SageMaker Model Monitor предлагает расширенные возможности для мониторинга качества моделей и обработки запросов на многократную загрузку, ускоряя разработку специализированного мониторинга моделей.

ПОДРОБНЕЕ

Октябрь 22, 2024

Революция в ML: реляционное глубокое обучение

Реляционное глубокое обучение (RDL) позволяет напрямую обучаться на реляционной базе данных, преобразуя таблицы в граф для эффективного решения задач ML. RDL устраняет шаги по разработке функций, обучаясь на сырых реляционных данных, повышая производительность и детализацию модели.

ПОДРОБНЕЕ

Октябрь 16, 2024

Улучшение визуального интеллекта: Предсказание следующих слов и диффузия видео

Исследователи Массачусетского технологического института предлагают Diffusion Forcing - новый метод обучения, который сочетает модели диффузии следующих слов и полной последовательности для гибкого и надежного создания последовательности. Этот метод улучшает процесс принятия решений ИИ, повышает качество видео и помогает роботам выполнять задачи, предсказывая будущие шаги при различном уровне ...

ПОДРОБНЕЕ

Октябрь 14, 2024

Революционное решение задач зрения с помощью Florence-2

Florence-2 от Microsoft, компактная модель языка зрения, отлично справляется с задачами аннотирования изображений с возможностью «нулевого снимка». Предварительно обученная на FLD-5B, она поддерживает такие задачи, как создание надписей, обнаружение объектов, сегментация и OCR в одной модели.

ПОДРОБНЕЕ

Октябрь 11, 2024

Развенчание шумихи вокруг искусственного интеллекта

Модели ИИ, такие как ChatGPT, повсеместно распространены и полезны, но генеративный ИИ создает проблемы, связанные с дезинформацией и этическими проблемами. Шумиха вокруг ИИ, примером которой может служить рост акций NVIDIA, вызывает вопросы о его влиянии на общество и потенциальных рисках.

ПОДРОБНЕЕ

Октябрь 3, 2024

Революция в области устойчивого развития с помощью ИИ с открытым исходным кодом

Компания Meta выкладывает в открытый доступ данные для карт населения, созданных с помощью искусственного интеллекта, чтобы помочь в проектах по адаптации к климату и ликвидации последствий стихийных бедствий по всему миру. Точные карты населения имеют решающее значение для обеспечения устойчивой энергетики, готовности к стихийным бедствиям и адаптации к климату во всем мире.

ПОДРОБНЕЕ

Октябрь 2, 2024

Освоение YOLOv8: обучение пользовательских моделей с легкостью

Обучать модели компьютерного зрения с помощью YOLOv8 от Ultralytics теперь проще простого, используя Python, CLI или Google Colab. YOLOv8 славится точностью, скоростью и гибкостью, предлагая локальные или облачные варианты обучения, такие как Google Colab для повышения вычислительной мощности.

ПОДРОБНЕЕ

Сентябрь 30, 2024

Обнаружение объектов: Улучшение фокусировки робота

Инженеры Массачусетского технологического института разработали Clio - метод, позволяющий роботам принимать интуитивные решения, связанные с выполнением задачи, определяя и запоминая только значимые элементы сцены. По словам исследователей, возможности Clio, продемонстрированные в реальных экспериментах, могут иметь решающее значение для поисково-спасательных операций, домашних роботов и автом...

ПОДРОБНЕЕ

Сентябрь 30, 2024

Машинное зрение: Поиск лиц повсюду

В 1994 году Диана Дуйзер продала на аукционе жареный сыр с изображением Девы Марии за 28 000 долларов. Исследование парейдолии, проведенное в Массачусетском технологическом институте, выявило различия между человеческим и машинным восприятием и возможную эволюционную связь с инстинктами выживания.

ПОДРОБНЕЕ

Сентябрь 27, 2024

Автоматизация проверок безопасности с помощью компьютерного зрения на AWS

Компания Northpower, крупный инфраструктурный подрядчик в Новой Зеландии, использует искусственный интеллект для определения приоритетности рисков для общественной безопасности, сокращая трудозатраты и выбросы углекислого газа. Столкнувшись с проблемами при проверке столбов электропередач на предмет безопасности, компания Northpower объединила цифровые и сканированные данные, чтобы эффективно ...

ПОДРОБНЕЕ

Сентябрь 22, 2024

Будущее гуманоидов в наших домах

Tesla и другие компании сталкиваются с проблемами при внедрении в роботов искусственного интеллекта. Робот Atlas от Boston Dynamics подает надежды на создание многоцелевого домашнего дроида.

ПОДРОБНЕЕ

Сентябрь 12, 2024

Power Up: Азбука трансформации

Meta и Waymo представили модель Transfusion, сочетающую трансформацию и диффузию для мультимодального прогнозирования. Модель Transfusion использует двунаправленное внимание трансформатора к лексемам изображения и задачи предварительного обучения для текста и изображения.

ПОДРОБНЕЕ

Август 19, 2024

Проворный рерайтинг: Amazon SageMaker JumpStart Unleashed

Cohere Rerank 3 Nimble FM улучшает системы корпоративного поиска, повышая скорость и точность за счет эффективного упорядочивания релевантных документов. Amazon SageMaker JumpStart предоставляет доступ к предварительно обученным моделям, таким как Cohere Rerank 3 Nimble, что позволяет настраивать их для конкретных случаев использования, не начиная работу с нуля.

ПОДРОБНЕЕ

Август 7, 2024

Повышение эффективности трансформатора зрения с помощью BatchNorm

Интеграция пакетной нормализации в архитектуру ViT сокращает время обучения и вывода более чем на 60 %, сохраняя или повышая точность. Модификация заключается в замене послойной нормализации на пакетную нормализацию в архитектуре трансформатора, использующего только кодер.

ПОДРОБНЕЕ

Август 7, 2024

Интервью по освоению машинного обучения

Расшифровка должностных обязанностей ML - ключ к успеху на собеседовании. Понимание спектра ролей может уточнить стратегию и повысить уверенность в себе.

ПОДРОБНЕЕ

Июль 31, 2024

Революция в домашней робототехнике с помощью обучения на реальном примере

Исследователи MIT CSAIL разработали RialTo - систему, которая создает цифровых двойников для более быстрого и эффективного обучения роботов в конкретных условиях. Система RialTo на 67 % повысила производительность роботов при выполнении различных задач, легко справляясь с помехами и отвлекающими факторами.

ПОДРОБНЕЕ

Июль 29, 2024

Оптимизация прогнозирования с помощью SageMaker Canvas

Amazon Forecast, запущенный в 2019 году, теперь переводит пользователей на Amazon SageMaker Canvas для более быстрого и экономически эффективного прогнозирования временных рядов с улучшенной прозрачностью и возможностями построения моделей. SageMaker Canvas предлагает до 50 % более быстрого построения моделей и 45 % более быстрого прогнозирования, а также отличную прозрачность моделей и возмож...

ПОДРОБНЕЕ

Июль 29, 2024

Революция в цифровых средах с микросервисами NVIDIA NIM

NVIDIA представила на SIGGRAPH достижения в области генеративного физического ИИ, включая микросервисы NIM для создания интерактивных визуальных ИИ-агентов и обучения физических машин. Технология преобразует такие отрасли, как производство и здравоохранение, позволяя роботам и автоматике более эффективно ориентироваться в окружающей среде.

ПОДРОБНЕЕ

Июль 24, 2024

Представляем модели Llama 3.1 на Amazon SageMaker JumpStart

Многоязычные LLM Llama 3.1, доступные на Amazon SageMaker JumpStart, предлагают оптимизированные генеративные модели ИИ для разработчиков и предприятий. SageMaker JumpStart предоставляет доступ к предварительно обученным базовым моделям, позволяет настраивать их и безопасно развертывать в выделенной среде VPC.

ПОДРОБНЕЕ

Июль 17, 2024

Обнаружение облаков с помощью искусственного интеллекта

Спутниковые снимки помогают следить за изменениями на Земле, но сегментация облаков имеет решающее значение. Сравниваются алгоритмы Random Forest и YOLO для удаления облаков на снимках Sentinel-2. Доступ к данным осуществляется через Copernicus Open Access Hub, Google Earth Engine или Python-пакет sentinelhub.

ПОДРОБНЕЕ

Июль 12, 2024

Раскрытие секретов временных рядов для магистрантов

Базовые модели, такие как большие языковые модели (LLM), адаптируются для моделирования временных рядов с помощью больших базовых моделей временных рядов (LTSM). Используя последовательное сходство данных, LTSM нацелены на обучение на основе разнообразных данных временных рядов для таких задач, как обнаружение выбросов и классификация, опираясь на успех LLM в вычислительных лингвистических обл...

ПОДРОБНЕЕ

Июль 11, 2024

Передовые инновации в области компьютерного зрения

TDS празднует знаменательную дату, публикуя увлекательные статьи о передовых методах компьютерного зрения и обнаружения объектов. Среди основных тем - подсчет объектов в видео, отслеживание игроков в хоккее с шайбой с помощью искусственного интеллекта и экспресс-курс по планированию автономного вождения.

ПОДРОБНЕЕ

Июль 9, 2024

Улучшение понимания музыки с помощью свертки графов, основанной на восприятии

MusGConv представляет блок свертки графов, вдохновленный восприятием, для обработки данных о музыкальных партитурах, повышая эффективность и производительность в задачах понимания музыки. Традиционные подходы MIR улучшаются с помощью MusGConv, который моделирует музыкальные партитуры как графы, чтобы отразить сложные, многомерные музыкальные отношения.

ПОДРОБНЕЕ

Июль 2, 2024

Повышение эффективности выводов PyTorch на AWS Graviton

В PyTorch 2.0 появился torch.compile для более быстрого выполнения кода. AWS оптимизировала torch.compile для процессоров Graviton3, что привело к значительному увеличению производительности моделей NLP, CV и рекомендаций.

ПОДРОБНЕЕ

Июль 1, 2024

Эволюция классификации изображений: Путешествие по конволюционным нейронным сетям

Прорыв Янна ЛеКуна в 1989 году с помощью конволюционных нейронных сетей сохранил пространственные данные изображений, что произвело революцию в исследованиях компьютерного зрения. CNN используют фильтры для извлечения карт признаков, складывая слои для создания мощных классификаторов изображений.

ПОДРОБНЕЕ

Июнь 29, 2024

Революционный ИИ: трансформаторы зрения и автокодировщики с маской

Трансформаторы, известные своей революцией в НЛП, теперь отлично справляются с задачами компьютерного зрения. Ознакомьтесь с архитектурами трансформатора зрения и автокодировщика с маской, обеспечивающими этот прорыв.

ПОДРОБНЕЕ

Июнь 18, 2024

Теневое моделирование раскрывает скрытые объекты в 3D-сценах

Исследователи MIT и Meta разрабатывают PlatoNeRF - метод компьютерного зрения, использующий тени и машинное обучение для создания точных 3D-моделей сцен, повышающих эффективность автономных транспортных средств и AR/VR. Сочетая лидар и искусственный интеллект, PlatoNeRF предлагает новые возможности для реконструкции и будет представлен на Конференции по компьютерному зрению и распознаванию обр...

ПОДРОБНЕЕ

Июнь 18, 2024

Разгадка визуального интеллекта языковых моделей

Исследователи Массачусетского технологического института обнаружили, что большие языковые модели могут понимать визуальный мир и генерировать сложные сцены. Запросив у LLM самокорректирующийся код для изображений, они улучшили простые рисунки и обучили систему зрения без использования визуальных данных.

ПОДРОБНЕЕ

Июнь 11, 2024

Революция в области скрининга электронных материалов с помощью нового метода компьютерного зрения

Ученые используют искусственный интеллект для определения передовых материалов для солнечных батарей. Инженеры Массачусетского технологического института разрабатывают метод компьютерного зрения, позволяющий ускорить определение характеристик материалов в 85 раз, стремясь полностью автоматизировать процесс отбора материалов.

ПОДРОБНЕЕ

Июнь 11, 2024

Повышение эффективности ML с помощью Sprinklr на AWS Graviton3

Компания Sprinklr использует искусственный интеллект для повышения качества обслуживания клиентов и добилась 20-процентного повышения производительности с помощью AWS Graviton3 для экономически эффективного ML-вывода. Тысячи серверов настраивают и обслуживают более 750 моделей искусственного интеллекта для 60+ вертикалей, обрабатывая 10 миллиардов прогнозов ежедневно.

ПОДРОБНЕЕ

Май 31, 2024

Различные области применения ИИ

Выбор правильного варианта использования ИИ имеет решающее значение для успеха. ИИ может быть ценным даже при умеренной производительности, предлагая уникальные решения. В качестве примера можно привести слияние датчиков и генеративный ИИ в повседневных продуктах.

ПОДРОБНЕЕ

Май 28, 2024

Поиск действий в видео на основе искусственного интеллекта

Ученые из Массачусетского технологического института и Лаборатории искусственного интеллекта MIT-IBM Watson разработали новый подход, позволяющий научить компьютеры точно определять действия на видео, используя только транскрипты. Этот метод, названный пространственно-временным обоснованием, повышает точность определения действий на длинных видео и может найти применение в онлайн-обучении и зд...

ПОДРОБНЕЕ

Апрель 14, 2024

Освоение обнаружения аномалий с помощью обобщенных моделей

Откройте для себя новаторское исследование компании XYZ, посвященное разработке новой технологии искусственного интеллекта, которая может произвести революцию в сфере здравоохранения. Узнайте, как эта инновация улучшит уход за пациентами и точность диагностики.

ПОДРОБНЕЕ

Апрель 11, 2024

ИИ Неопределенность: Прорыв в медицинской визуализации

Новое исследование показывает революционную технологию искусственного интеллекта, разработанную компанией Google, которая революционизирует анализ данных в здравоохранении. Результаты исследования свидетельствуют о значительном повышении точности и эффективности диагностики редких заболеваний.

ПОДРОБНЕЕ

Апрель 5, 2024

Улучшение модерации контента с помощью Amazon Rekognition

Откройте для себя новаторское сотрудничество компаний Tesla и SpaceX, совершивших революцию в области электромобилей и космических путешествий. Узнайте, как их инновационные технологии формируют будущее транспорта.

ПОДРОБНЕЕ

Апрель 4, 2024

Nielsen Sports сокращает расходы на анализ видео с помощью Amazon SageMaker

Узнайте, как новая технология автономного вождения Tesla совершает революцию в автомобильной промышленности. Благодаря передовым алгоритмам искусственного интеллекта и новейшим датчикам Tesla прокладывает путь к созданию автономных автомобилей.

ПОДРОБНЕЕ

Март 28, 2024

NVIDIA Hopper доминирует в генеративном ИИ на MLPerf

Узнайте, как инновационные стартапы совершают революцию в технологической отрасли, создавая передовые продукты. От решений на основе искусственного интеллекта до экологичных технологий - эти компании меняют будущее.

ПОДРОБНЕЕ

Март 25, 2024

Обучение искусственному интеллекту для обнаружения лагерей для бездомных в Калифорнии

Узнайте о новаторском сотрудничестве Tesla и SpaceX в разработке инновационных решений в области возобновляемых источников энергии. Узнайте, как концепция Элона Маска революционизирует будущее транспорта и освоения космоса.

ПОДРОБНЕЕ

Март 18, 2024

Революция в компьютерном зрении с помощью FeatUp

Исследователи Массачусетского технологического института разработали FeatUp - систему, которая улучшает алгоритмы компьютерного зрения, позволяя одновременно улавливать детали высокого и низкого уровня, что революционизирует обработку изображений. FeatUp повышает разрешение в 16-32 раза, улучшая такие задачи, как обнаружение объектов и оценка глубины, предлагая новый уровень четкости в моделях...

ПОДРОБНЕЕ

Март 14, 2024

Освойте 3D гауссово напыление: От представления сцены к рендерингу изображений

3D Gaussian splatting, новый метод синтеза новых видов, бросает вызов NeRFs как доминирующей технике для представления 3D-сцен. Этот метод использует анизотропные гауссианы для создания четких 3D-моделей в реальном времени, обеспечивая уникальный подход к представлению сцен и рендерингу изображений.

ПОДРОБНЕЕ

Март 8, 2024

Революция в компьютерном зрении: Навигация по ландшафту искусственного интеллекта

Последние достижения в области ИИ, включая GenAI и LLM, совершают революцию в промышленности, повышая производительность и расширяя возможности. Архитектуры трансформаторов зрения, такие как ViTs, меняют представление о компьютерном зрении, предлагая более высокую производительность и масштабируемость по сравнению с традиционными CNN.

ПОДРОБНЕЕ

Март 8, 2024

Разблокировка 3D-понимания из 2D-изображений с помощью Sun RGB-D

Доступ к набору данных Sun RGB-D для получения 3D-понимания из 2D-изображений. Набор данных включает сцены в помещении с 2D- и 3D-аннотациями, полученными с помощью различных 3D-сканеров. Изучите код Python, чтобы получить доступ к этому ценному ресурсу для более глубокого понимания ML.

ПОДРОБНЕЕ

Март 7, 2024

Улучшение периферийного зрения ИИ

Исследователи Массачусетского технологического института разработали набор данных для имитации периферийного зрения в моделях искусственного интеллекта, что улучшает обнаружение объектов. Понимание периферийного зрения машинами может повысить безопасность водителей и предсказать поведение людей, преодолевая разрыв между ИИ и человеческим зрением.

ПОДРОБНЕЕ

Февраль 23, 2024

Развертывание ML: От модели к облаку на Python

Статья посвящена развертыванию ML-моделей в облаке, объединению полей CS и DS и преодолению ограничений на память при развертывании моделей. Ключевые технологии включают Detectron2, Django, Docker, Celery, Heroku и AWS S3.

ПОДРОБНЕЕ

Февраль 14, 2024

Упрощение маркировки аннотаций поз с помощью Amazon SageMaker Ground Truth

В этой статье обсуждается важность высококачественных данных и уменьшения ошибок маркировки в моделях оценки позы. В ней демонстрируется, как пользовательский рабочий процесс маркировки в Amazon SageMaker Ground Truth может упростить процесс маркировки и минимизировать ошибки, что в конечном итоге снижает стоимость получения точных меток позы.

ПОДРОБНЕЕ

Февраль 7, 2024

Автоматизация обнаружения мошенничества при оформлении ипотечных документов с помощью ML и Amazon Fraud Detector

Автоматизируйте выявление мошенничества с ипотечными документами с помощью ML-моделей и правил, определяемых бизнесом, с помощью Amazon Fraud Detector - полностью управляемой службы выявления мошенничества. Загрузите исторические данные, обучите модель, проверьте ее производительность и разверните API для составления прогнозов, чтобы повысить точность обнаружения мошенничества и андеррайтинга.

ПОДРОБНЕЕ

Январь 31, 2024

Преобразование изображений еды в рецепты: Сила искусственного интеллекта и FIRE

Технология искусственного интеллекта способна преобразовывать изображения продуктов питания в рецепты, позволяя создавать персональные рекомендации, учитывать культурные особенности и автоматизировать процесс приготовления пищи. Этот инновационный метод сочетает в себе компьютерное зрение и обработку естественного языка для создания комплексных рецептов на основе изображений продуктов питания,...

ПОДРОБНЕЕ

Январь 31, 2024

Обнаружение подделки изображений в масштабе: Построение модели компьютерного зрения на Amazon SageMaker

Автоматизация обнаружения фальсификации документов и мошенничества в масштабе с помощью сервисов искусственного интеллекта и машинного обучения AWS для андеррайтинга ипотечных кредитов. Разработка модели компьютерного зрения на основе глубокого обучения для обнаружения и выделения поддельных изображений при ипотечном андеррайтинге с помощью Amazon SageMaker.

ПОДРОБНЕЕ

Январь 28, 2024

Разблокировка эффективности роботов: Мультимодальные модели искусственного интеллекта революционизируют сложное планирование

Лаборатория Improbable AI Lab Массачусетского технологического института разработала мультимодальную систему под названием HiP, которая использует три различные базовые модели, помогающие роботам создавать детальные планы для сложных задач. В отличие от других моделей, HiP не требует доступа к парным данным о зрении, языке и действиях, что делает ее более экономичной и прозрачной.

ПОДРОБНЕЕ

Январь 25, 2024

Освоение монокулярной оценки глубины: Техники и оценка

В этой статье рассматривается монокулярная оценка глубины (MDE) и ее важность для приложений компьютерного зрения. В ней рассказывается о том, как загрузить и визуализировать данные карты глубины, выполнить вывод с помощью Marigold и DPT, а также оценить прогнозы глубины с помощью набора данных SUN RGB-D.

ПОДРОБНЕЕ

Январь 19, 2024

Объединение восприятия, планирования и управления: Будущее автономной робототехники

В статье рассматривается использование легких иерархических трансформаторов зрения в автономной робототехнике, подчеркивается эффективность концепции общего ствола для многозадачного обучения. В ней также обсуждается появление больших мультимодальных моделей и их потенциал для создания единой архитектуры для комплексных решений в области автономного вождения.

ПОДРОБНЕЕ

Январь 15, 2024

Правление ResNet: Новая эра с трансформаторами зрения

Компьютерное зрение прошло путь от небольших пиксельных изображений до генерации изображений высокого разрешения на основе описаний, при этом более компактные модели повышают производительность в таких областях, как фотосъемка со смартфона и автономные транспортные средства. Модель ResNet доминирует в компьютерном зрении уже почти восемь лет, но появляются такие претенденты, как Vision Transfo...

ПОДРОБНЕЕ

Январь 11, 2024

Революция в гольфе: облачное отслеживание мячей поднимает PGA TOUR на новую высоту

PGA TOUR разрабатывает систему отслеживания положения мяча нового поколения, использующую компьютерное зрение и методы машинного обучения для определения местоположения мячей для гольфа на путтинг-грине. Система, разработанная инновационным центром Amazon Generative AI, успешно отслеживает положение мяча и предсказывает его координаты для отдыха.

ПОДРОБНЕЕ

Декабрь 30, 2023

Революционный музыкальный ИИ: 3 прорыва, которые стоит ожидать в 2024 году

2024 год может стать переломным моментом для музыкального ИИ благодаря прорывам в области генерации текста в музыку, музыкального поиска и чат-ботов. Однако эта область все еще отстает от речевого ИИ, и для революции в музыкальном взаимодействии с помощью ИИ необходимы достижения в области гибкого и естественного разделения источников.

ПОДРОБНЕЕ

Декабрь 23, 2023

Сила гауссова напыления: Революция в 3D-представлениях

Гауссово напыление - это быстрый и понятный метод представления 3D-сцен без нейронных сетей, набирающий популярность в мире, одержимом моделями искусственного интеллекта. Он использует 3D-точки с уникальными параметрами для точного соответствия рендеров известным изображениям из базы данных, предлагая свежую альтернативу сложным и непрозрачным методам вроде NeRF.

ПОДРОБНЕЕ

Декабрь 20, 2023

Революционные роботы: Достижения в области автономных технологий 2023 года

Автономные машины в робототехнике продемонстрировали свои возможности в 2023 году, среди которых стоит отметить умную коляску с искусственным интеллектом от Glüxkind, систему mGripAI от Soft Robotics для упаковки продуктов и робота TM25S от Quanta для проверки продукции - все они используют технологии NVIDIA.

ПОДРОБНЕЕ

Декабрь 14, 2023

Революционный мониторинг горного оборудования с помощью AWS-прототипирования и компьютерного зрения

ICL, международная производственная и горнодобывающая корпорация, разработала собственные возможности машинного обучения и компьютерного зрения для автоматического мониторинга своего горнодобывающего оборудования. При поддержке программы AWS Prototyping они смогли создать на AWS фреймворк с использованием Amazon SageMaker для извлечения изображения с 30 камер с возможностью масштабирования до ...

ПОДРОБНЕЕ