Стрічка новин про штучний інтелект і машинне навчання

Головні новини та публікації щодня! Будьте на крок попереду: дізнавайтеся першими про нові ідеї, тренди та інновації у сфері технологій.

Ефективне розгортання моделей Meta Llama 3.1 з AWS Inferentia та Trainium

Meta Llama 3.1 LLM з підтримкою 8B та 70B висновків тепер на екземплярах AWS Trainium та Inferentia. SageMaker JumpStart пропонує безпечне розгортання попередньо навчених моделей для кастомізації та тонкого налаштування.

Оптимізація автоматичної обробки пошкоджень за допомогою Amazon Bedrock

Рішення з використанням генеративного ШІ AWS, такого як Amazon Bedrock і OpenSearch, спрощує оцінку пошкоджень транспортних засобів для страховиків, ремонтних майстерень і менеджерів автопарків. Перетворюючи зображення і метадані в числові вектори, цей підхід спрощує процес і надає цінну інформацію для прийняття обґрунтованих рішень в автомобільній промисловості.

Використання можливостей HOG у комп'ютерному зорі

Гістограма орієнтованих градієнтів (HOG) - це ключовий алгоритм виділення ознак для задач виявлення та розпізнавання об'єктів, що використовує величину та орієнтацію градієнта для створення значущих гістограм. Алгоритм HOG передбачає обчислення градієнтних зображень, створення гістограм градієнтів і нормалізацію для зменшення варіацій освітлення.

Моніторинг моделей у реальному часі за допомогою Amazon SageMaker

Індивідуальний моніторинг моделей за допомогою Amazon SageMaker має вирішальне значення для сценаріїв AI/ML в режимі реального часу. SageMaker Model Monitor пропонує розширені можливості для моніторингу якості моделей та обробки багатокористувацьких запитів, прискорюючи розробку індивідуального моніторингу моделей.

Революційний ML: реляційне глибоке навчання

Беріть участь у реляційному глибокому навчанні (RDL), безпосередньо навчаючись на реляційній базі даних, перетворюючи таблиці на графік для ефективного виконання завдань ML. RDL усуває етапи функціональної інженерії, навчаючись на необроблених реляційних даних, підвищуючи продуктивність і деталізацію моделі.

Підвищення візуального інтелекту: Прогнозування наступних кадрів і поширення відео

Дослідники з Массачусетського технологічного інституту пропонують Diffusion Forcing - нову методику навчання, яка поєднує моделі дифузії наступного елемента та повної послідовності для гнучкої та надійної генерації послідовностей. Цей метод покращує прийняття рішень штучним інтелектом, підвищує якість відео та допомагає роботам у виконанні завдань, передбачаючи майбутні кроки з різним рівнем ш...

Революція в завданнях візуалізації з Florence-2

Florence-2 від Microsoft, компактна модель мови технічного зору, чудово справляється із завданнями анотування зображень з нульовим знімком. Попередньо навчена на FLD-5B, вона підтримує такі завдання, як створення підписів, виявлення об'єктів, сегментація та розпізнавання тексту в одній моделі.

Розвінчання хайпу про штучний інтелект

Такі моделі ШІ, як ChatGPT, є повсюдними та корисними, але генеративний ШІ створює проблеми з дезінформацією та етичними проблемами. Ажіотаж навколо штучного інтелекту, прикладом якого є різке зростання акцій NVIDIA, викликає питання щодо його впливу на суспільство та потенційних ризиків.

Революція в галузі сталого розвитку за допомогою ШІ з відкритим вихідним кодом

Meta - це відкритий доступ до даних для створення карт населення на основі штучного інтелекту, які допоможуть у проектах з адаптації до зміни клімату та реагування на катастрофи в усьому світі. Точні карти населення мають вирішальне значення для сталого розвитку енергетики, готовності до катастроф та адаптації до зміни клімату в усьому світі.

Освоєння YOLOv8: навчання користувацьких моделей з легкістю

Навчати моделі комп'ютерного зору за допомогою YOLOv8 від Ultralytics тепер простіше за допомогою Python, CLI або Google Colab. YOLOv8 відомий своєю точністю, швидкістю та гнучкістю, пропонуючи локальні або хмарні варіанти навчання, такі як Google Colab для підвищення обчислювальної потужності.

Виявлення об'єктів: Покращення фокусування робота

Інженери Массачусетського технологічного інституту розробили метод Clio, який дозволяє роботам приймати інтуїтивні, релевантні завданням рішення, визначаючи і запам'ятовуючи лише релевантні елементи сцени. На думку дослідників, можливості Clio, продемонстровані в реальних експериментах, можуть мати вирішальне значення для пошуково-рятувальних місій, домашніх роботів і автоматизації виробництва.

Машинний зір: Знаходити обличчя всюди

У 1994 році Діана Дуйзер продала на аукціоні смажений сир із зображенням Діви Марії за $28 000. Дослідження парейдолії, проведене в Массачусетському технологічному інституті, виявляє відмінності у сприйнятті між людиною і машиною та можливий еволюційний зв'язок з інстинктом виживання.

Автоматизація перевірок безпеки за допомогою комп'ютерного зору на AWS

Компанія Northpower, великий інфраструктурний підрядник у Новій Зеландії, використовує штучний інтелект для визначення пріоритетності ризиків для громадської безпеки, зменшуючи зусилля та викиди вуглецю. Зіткнувшись з проблемами при перевірці електроопор на безпеку, Northpower поєднує цифрові та відскановані дані, щоб ефективно виявляти та усувати потенційні небезпеки.

Увімкнись: Азбука трансформації

Meta та Waymo представляють модель Transfusion, що поєднує трансформатор та дифузію для мультимодального прогнозування. Модель Transfusion використовує двонаправлену увагу трансформатора для маркерів зображень та завдання для попереднього навчання для тексту та зображень.

Nimble Reranking: Amazon SageMaker JumpStart Unleashed

Cohere Rerank 3 Nimble FM покращує корпоративні пошукові системи, підвищуючи швидкість і точність шляхом ефективного переупорядкування релевантних документів. Amazon SageMaker JumpStart надає доступ до попередньо навчених моделей, таких як Cohere Rerank 3 Nimble, що дозволяє налаштовувати їх для конкретних випадків використання без необхідності починати з нуля.

Підвищення ефективності трансформатора зору за допомогою BatchNorm

Інтеграція пакетної нормалізації в архітектуру ViT скорочує час навчання та виведення більш ніж на 60%, зберігаючи або покращуючи точність. Модифікація передбачає заміну нормалізації шарів на пакетну нормалізацію в архітектурі трансформатора, що використовує лише кодер.

Революція в домашній робототехніці завдяки навчанню Real-to-Sim

Дослідники MIT CSAIL розробили RialTo - систему, яка створює цифрових двійників для швидшого та ефективнішого навчання роботів у певних умовах. RialTo покращила продуктивність роботів на 67% при виконанні різних завдань, легко справляючись з перешкодами та відволікаючими факторами.

Революція в цифровому середовищі з мікросервісами NVIDIA NIM

NVIDIA представила на SIGGRAPH досягнення в галузі генеративного фізичного ШІ, включаючи мікросервіси NIM для створення інтерактивних візуальних агентів ШІ та навчання фізичних машин. Ця технологія трансформує такі галузі, як виробництво та охорона здоров'я, дозволяючи роботам та автоматизованим системам ефективніше орієнтуватися в навколишньому середовищі.

Оптимізуйте прогнозування за допомогою SageMaker Canvas

Amazon Forecast, запущений у 2019 році, тепер переводить користувачів на Amazon SageMaker Canvas для швидшого та економічно ефективнішого прогнозування часових рядів з підвищеною прозорістю та можливостями побудови моделей. SageMaker Canvas дозволяє на 50% швидше будувати моделі та на 45% швидше робити прогнози, а також забезпечує чудову прозорість моделей і можливість навчати ансамбль моделей...

Представляємо моделі Llama 3.1 на Amazon SageMaker JumpStart

Багатомовні LLM Llama 3.1, доступні на Amazon SageMaker JumpStart, пропонують оптимізовані моделі генеративного ШІ для розробників і бізнесу. SageMaker JumpStart надає доступ до попередньо навчених базових моделей, що дозволяє налаштовувати та безпечно розгортати їх у спеціальному середовищі VPC.

Виявлення хмар за допомогою штучного інтелекту

Супутникові знімки покращують моніторинг змін на Землі, але сегментація хмар має вирішальне значення. Для видалення хмар на знімках Sentinel-2 порівнюються такі алгоритми, як Random Forest та YOLO. Доступ до даних через Центр відкритого доступу Copernicus, Google Earth Engine або Python-пакет sentinelhub.

Розкриття таємниць часових рядів для магістрів права

Фундаментальні моделі, такі як великі мовні моделі (LLM), адаптуються для моделювання часових рядів за допомогою великих фундаментальних моделей часових рядів (LTSM). Використовуючи подібність послідовних даних, LTSM має на меті навчатися на різноманітних даних часових рядів для таких завдань, як виявлення та класифікація викидів, спираючись на успіх LLM в обчислювальній лінгвістиці.

Передові інновації в галузі комп'ютерного зору

TDS святкує цю подію цікавими статтями про передові технології комп'ютерного зору та розпізнавання об'єктів. Серед основних моментів - підрахунок об'єктів на відео, відстеження гравців зі штучним інтелектом у хокеї та експрес-курс з планування автономного водіння.

Покращення розуміння музики за допомогою згортки графіків на основі сприйняття

MusGConv представляє блок згортки графів, натхненний сприйняттям, для обробки даних нотної партитури, підвищуючи ефективність і продуктивність в задачах розуміння музики. Традиційні підходи MIR розширюються за допомогою MusGConv, який моделює музичні партитури у вигляді графів для відображення складних, багатовимірних музичних взаємозв'язків.

Supercharge PyTorch Inference на AWS Graviton

PyTorch 2.0 представив torch.compile для швидшого виконання коду. AWS оптимізувала torch.compile для процесорів Graviton3, що призвело до значного покращення продуктивності для NLP, CV та рекомендаційних моделей.

Еволюція класифікації зображень: Подорож через згорткові нейронні мережі

Прорив Яна Лекуна 1989 року з використанням згорткових нейронних мереж зберіг дані просторових зображень, зробивши революцію в дослідженнях комп'ютерного зору. CNN використовують фільтри для вилучення карт об'єктів, накладання шарів для створення потужних класифікаторів зображень.

Революція в ШІ: трансформатори зору в автокодери з масками

Трансформатори, відомі своєю революцією в НЛП, тепер чудово справляються із завданнями комп'ютерного зору. Дослідіть архітектури Vision Transformer та Masked Autoencoder Vision Transformer, які уможливили цей прорив.

Тіньове моделювання відкриває приховані об'єкти в 3D-сценах

Дослідники з Массачусетського технологічного інституту та Мета розробляють PlatoNeRF - техніку комп'ютерного зору, що використовує тіні та машинне навчання для створення точних 3D-моделей сцен, покращуючи ефективність автономних транспортних засобів та AR/VR. Поєднуючи лідар та штучний інтелект, PlatoNeRF пропонує нові можливості для реконструкцій і буде представлений на конференції з комп'юте...

Розгадка візуального інтелекту мовних моделей

Дослідники з Массачусетського технологічного інституту виявили, що великі мовні моделі можуть розуміти візуальний світ і генерувати складні сцени. Запропонувавши LLM самокорегувати код для зображень, вони покращили прості малюнки та навчили систему технічного зору без використання візуальних даних.

Підвищення ефективності ML за допомогою Sprinklr на AWS Graviton3

Sprinklr використовує ШІ для покращення клієнтського досвіду, досягнувши 20% підвищення продуктивності за допомогою AWS Graviton3 для економічно ефективного ML-висновку. Тисячі серверів налаштовують і обслуговують понад 750 моделей ШІ по 60+ вертикалях, обробляючи 10 мільярдів прогнозів щодня.

Революційний скринінг електронних матеріалів за допомогою нового методу комп'ютерного зору

Вчені використовують штучний інтелект для визначення передових матеріалів для сонячних батарей. Інженери Массачусетського технологічного інституту розробляють техніку комп'ютерного зору, яка прискорює визначення характеристик матеріалів у 85 разів, з метою повністю автоматизованого скринінгу матеріалів.

Дивергентні застосування ШІ

Вибір правильного сценарію використання ШІ має вирішальне значення для успіху. ШІ може бути цінним навіть при помірній продуктивності, пропонуючи унікальні рішення. Приклади включають злиття сенсорів і генеративний ШІ в повсякденних продуктах.

Пошук відеодій на основі штучного інтелекту

Вчені з Массачусетського технологічного інституту та лабораторії штучного інтелекту MIT-IBM Watson AI Lab розробили новий підхід до навчання комп'ютерів визначати дії на відео, використовуючи лише транскрипт. Цей метод, який називається просторово-часовим заземленням, підвищує точність ідентифікації дій у довгих відео і може знайти застосування в онлайн-навчанні та охороні здоров'я.

Опановуємо виявлення аномалій за допомогою узагальнених моделей

Відкрийте для себе новаторські дослідження компанії XYZ щодо розробки нової технології штучного інтелекту, яка може зробити революцію в галузі охорони здоров'я. Дізнайтеся, як ця інновація покращить догляд за пацієнтами та точність діагностики.

Невизначеність штучного інтелекту: Прорив у медичній візуалізації

Нове дослідження розкриває революційну технологію штучного інтелекту, розроблену компанією Google, яка революціонізує аналіз даних у сфері охорони здоров'я. Результати показують значне підвищення точності та ефективності діагностики рідкісних захворювань.

Покращення модерації контенту за допомогою Amazon Rekognition

Дізнайтеся про новаторську співпрацю між Tesla та SpaceX, яка зробила революцію в електромобілях та космічних подорожах. Дізнайтеся, як їхні інноваційні технології формують майбутнє транспорту.

Nielsen Sports скорочує витрати на відеоаналіз за допомогою Amazon SageMaker

Дізнайтеся, як нова технологія безпілотного водіння Tesla революціонізує автомобільну індустрію. Завдяки вдосконаленим алгоритмам штучного інтелекту та найсучаснішим датчикам Tesla прокладає шлях до автономних транспортних засобів.

NVIDIA Hopper домінує над генеративним ШІ на MLPerf

Дізнайтеся, як інноваційні стартапи революціонізують технологічну індустрію, створюючи передові продукти. Від рішень на основі штучного інтелекту до стійких технологій - ці компанії змінюють майбутнє.

Навчання ШІ для виявлення таборів для бездомних у Каліфорнії

Дізнайтеся про новаторську співпрацю між Tesla та SpaceX у розробці інноваційних рішень у сфері відновлюваної енергетики. Дізнайтеся, як бачення Ілона Маска революціонізує майбутнє транспорту та освоєння космосу.

Революція в комп'ютерному зорі з FeatUp

Дослідники з Массачусетського технологічного інституту розробили систему FeatUp, яка покращує алгоритми комп'ютерного зору для одночасного захоплення деталей високого та низького рівня, революціонізуючи обробку зображень. FeatUp збільшує роздільну здатність у 16-32 рази, покращуючи такі завдання, як виявлення об'єктів та оцінка глибини, пропонуючи новий рівень чіткості в моделях штучного інтел...

Освоїти 3D-гаусове розбризкування: Від представлення сцени до рендерингу зображень

3D гаусівське розбризкування, новий метод синтезу нового вигляду, кидає виклик NeRF як домінуючій техніці представлення 3D-сцен. Цей метод використовує анізотропні гаусиани для відтворення чітких 3D-моделей у реальному часі, забезпечуючи унікальний підхід до представлення сцени та рендерингу зображень.

Розблокування 3D-розуміння з 2D-зображень за допомогою Sun RGB-D

Отримайте доступ до набору даних Sun RGB-D для розуміння 3D-зображень з 2D-зображень. Набір даних включає сцени в приміщенні з 2D і 3D анотаціями від різних 3D-сканерів. Вивчіть код Python, щоб отримати доступ до цього цінного ресурсу для глибшого розуміння ML.

Революція в комп'ютерному зорі: Навігація по ландшафту штучного інтелекту

Останні досягнення в галузі штучного інтелекту, включаючи GenAI та LLM, революціонізують галузі завдяки підвищенню продуктивності та можливостей. Архітектури трансформаторів зору, такі як ViTs, змінюють комп'ютерний зір, пропонуючи чудову продуктивність і масштабованість порівняно з традиційними CNN.

Покращення периферійного зору ШІ

Дослідники Массачусетського технологічного інституту розробили набір даних для імітації периферійного зору в моделях штучного інтелекту, що покращує розпізнавання об'єктів. Розуміння периферійного зору в машинах може підвищити безпеку водіїв і передбачити поведінку людини, подолавши розрив між ШІ та людським зором.

Оптимізація маркування анотацій поз за допомогою Amazon SageMaker Basic Truth

У цій статті обговорюється важливість високоякісних даних і зменшення помилок маркування в моделях оцінки пози. Вона демонструє, як спеціальний робочий процес маркування в Amazon SageMaker Ground Truth може впорядкувати процес маркування і мінімізувати помилки, що в кінцевому підсумку зменшує витрати на отримання точних міток поз.

Автоматизація виявлення шахрайства з іпотечними документами за допомогою детектора шахрайства ML та Amazon

Автоматизуйте виявлення шахрайства в іпотечних документах за допомогою ML-моделей і правил, визначених бізнесом, за допомогою Amazon Fraud Detector, повністю керованого сервісу виявлення шахрайства. Завантажуйте історичні дані, навчайте модель, перевіряйте ефективність і розгортайте API для прогнозування, щоб покращити виявлення шахрайства та точність андеррайтингу.

Перетворення зображень їжі на рецепти: Сила штучного інтелекту та вогню

Технологія штучного інтелекту здатна перетворювати зображення їжі на рецепти, що дозволяє надавати персоналізовані рекомендації щодо їжі, адаптувати їх до культурних особливостей та автоматизувати процес приготування. Цей інноваційний метод поєднує комп'ютерний зір і обробку природної мови для створення вичерпних рецептів на основі зображень їжі, долаючи розрив між візуальними зображеннями стр...

Виявлення підробки зображень у масштабі: Побудова моделі комп'ютерного зору на Amazon SageMaker

Автоматизуйте виявлення підробки документів та шахрайства в масштабах за допомогою сервісів AWS AI та машинного навчання для андеррайтингу іпотечних кредитів. Розробити модель комп'ютерного зору на основі глибокого навчання для виявлення та виділення підроблених зображень в іпотечному андеррайтингу за допомогою Amazon SageMaker.

Розблокування ефективності роботів: Мультимодальні моделі ШІ революціонізують комплексне планування

Лабораторія неймовірного штучного інтелекту Массачусетського технологічного інституту розробила мультимодальний фреймворк під назвою HiP, який використовує три різні базові моделі, щоб допомогти роботам створювати детальні плани для виконання складних завдань. На відміну від інших моделей, HiP не потребує доступу до даних парного зору, мови та дій, що робить її більш економічно ефективною та п...

Оволодіння монокулярною оцінкою глибини: Техніка та оцінка

У цій статті досліджується монокулярна оцінка глибини (MDE) та її важливість для додатків комп'ютерного зору. Вона містить покрокову інструкцію із завантаження та візуалізації даних карти глибини, запуску виведення за допомогою Marigold і DPT, а також оцінювання прогнозів глибини за допомогою набору даних SUN RGB-D.

Об'єднання сприйняття, планування та контролю: Майбутнє автономної робототехніки

У статті досліджується використання легких ієрархічних трансформаторів зору в автономній робототехніці, підкреслюється ефективність концепції спільної магістралі для багатозадачного навчання. У ній також обговорюється поява великих мультимодальних моделей та їхній потенціал у створенні уніфікованої архітектури для наскрізних рішень автономного водіння.

Панування ResNet: Нова ера з трансформаторами бачення

Комп'ютерний зір еволюціонував від маленьких піксельних зображень до створення зображень високої роздільної здатності на основі описів, причому менші моделі покращують продуктивність у таких сферах, як фотографування смартфонів та автономні транспортні засоби. Модель ResNet домінує в комп'ютерному зорі вже майже вісім років, але з'являються нові розробки, такі як Vision Transformer (ViT), що д...

Революція в гольфі: хмарне відстеження м'яча виводить PGA TOUR на нові висоти

PGA TOUR розробляє систему відстеження положення м'яча наступного покоління, яка використовує комп'ютерний зір і методи машинного навчання для визначення місцезнаходження м'ячів для гольфу на паттінг-гріні. Система, розроблена Інноваційним центром Amazon Generative AI, успішно відстежує положення м'яча та прогнозує координати його спокою.

Революція в музичному штучному інтелекті: 3 прориви, на які варто очікувати в 2024 році

2024 рік може стати переломним для музичного ШІ завдяки проривам у перетворенні тексту на музику, музичному пошуку та чат-ботам. Однак ця сфера все ще відстає від мовленнєвого ШІ, і для того, щоб революціонізувати музичну взаємодію за допомогою ШІ, необхідний прогрес у гнучкому і природному розділенні джерел.

Сила гауссового розбризкування: Революційна зміна 3D-зображень

Гаусове розбризкування - це швидкий і зрозумілий метод представлення 3D-сцен без нейронних мереж, що набуває популярності у світі, одержимому моделями штучного інтелекту. Він використовує 3D-точки з унікальними параметрами для точної відповідності рендерингу відомим зображенням з набору даних, пропонуючи свіжу альтернативу складним і непрозорим методам, таким як NeRF.

Революційні роботи: Досягнення в автономних технологіях 2023 року

Автономні машини в робототехніці продемонстрували свої можливості в 2023 році, серед яких варто відзначити розумну коляску зі штучним інтелектом від Glüxkind, систему mGripAI для пакування харчових продуктів від Soft Robotics і робота TM25S від Quanta для інспекції продукції, в усіх з яких використовуються технології NVIDIA.

Революція в моніторингу гірничодобувного обладнання за допомогою прототипування AWS і комп'ютерного зору

ICL, міжнародна виробнича та гірничодобувна корпорація, розробила власні можливості з використанням машинного навчання та комп'ютерного зору для автоматичного моніторингу свого гірничодобувного обладнання. За підтримки програми AWS Prototyping вони змогли створити фреймворк на AWS за допомогою Amazon SageMaker для отримання зображень з 30 камер, з потенціалом масштабування до тисяч.