Meta Llama 3.1 LLM з підтримкою 8B та 70B висновків тепер на екземплярах AWS Trainium та Inferentia. SageMaker JumpStart пропонує безпечне розгортання попередньо навчених моделей для кастомізації та тонкого налаштування.
Рішення з використанням генеративного ШІ AWS, такого як Amazon Bedrock і OpenSearch, спрощує оцінку пошкоджень транспортних засобів для страховиків, ремонтних майстерень і менеджерів автопарків. Перетворюючи зображення і метадані в числові вектори, цей підхід спрощує процес і надає цінну інформацію для прийняття обґрунтованих рішень в автомобільній промисловості.
Гістограма орієнтованих градієнтів (HOG) - це ключовий алгоритм виділення ознак для задач виявлення та розпізнавання об'єктів, що використовує величину та орієнтацію градієнта для створення значущих гістограм. Алгоритм HOG передбачає обчислення градієнтних зображень, створення гістограм градієнтів і нормалізацію для зменшення варіацій освітлення.
Індивідуальний моніторинг моделей за допомогою Amazon SageMaker має вирішальне значення для сценаріїв AI/ML в режимі реального часу. SageMaker Model Monitor пропонує розширені можливості для моніторингу якості моделей та обробки багатокористувацьких запитів, прискорюючи розробку індивідуального моніторингу моделей.
Беріть участь у реляційному глибокому навчанні (RDL), безпосередньо навчаючись на реляційній базі даних, перетворюючи таблиці на графік для ефективного виконання завдань ML. RDL усуває етапи функціональної інженерії, навчаючись на необроблених реляційних даних, підвищуючи продуктивність і деталізацію моделі.
Дослідники з Массачусетського технологічного інституту пропонують Diffusion Forcing - нову методику навчання, яка поєднує моделі дифузії наступного елемента та повної послідовності для гнучкої та надійної генерації послідовностей. Цей метод покращує прийняття рішень штучним інтелектом, підвищує якість відео та допомагає роботам у виконанні завдань, передбачаючи майбутні кроки з різним рівнем ш...
Florence-2 від Microsoft, компактна модель мови технічного зору, чудово справляється із завданнями анотування зображень з нульовим знімком. Попередньо навчена на FLD-5B, вона підтримує такі завдання, як створення підписів, виявлення об'єктів, сегментація та розпізнавання тексту в одній моделі.
Такі моделі ШІ, як ChatGPT, є повсюдними та корисними, але генеративний ШІ створює проблеми з дезінформацією та етичними проблемами. Ажіотаж навколо штучного інтелекту, прикладом якого є різке зростання акцій NVIDIA, викликає питання щодо його впливу на суспільство та потенційних ризиків.
Meta - це відкритий доступ до даних для створення карт населення на основі штучного інтелекту, які допоможуть у проектах з адаптації до зміни клімату та реагування на катастрофи в усьому світі. Точні карти населення мають вирішальне значення для сталого розвитку енергетики, готовності до катастроф та адаптації до зміни клімату в усьому світі.
Навчати моделі комп'ютерного зору за допомогою YOLOv8 від Ultralytics тепер простіше за допомогою Python, CLI або Google Colab. YOLOv8 відомий своєю точністю, швидкістю та гнучкістю, пропонуючи локальні або хмарні варіанти навчання, такі як Google Colab для підвищення обчислювальної потужності.
Інженери Массачусетського технологічного інституту розробили метод Clio, який дозволяє роботам приймати інтуїтивні, релевантні завданням рішення, визначаючи і запам'ятовуючи лише релевантні елементи сцени. На думку дослідників, можливості Clio, продемонстровані в реальних експериментах, можуть мати вирішальне значення для пошуково-рятувальних місій, домашніх роботів і автоматизації виробництва.
У 1994 році Діана Дуйзер продала на аукціоні смажений сир із зображенням Діви Марії за $28 000. Дослідження парейдолії, проведене в Массачусетському технологічному інституті, виявляє відмінності у сприйнятті між людиною і машиною та можливий еволюційний зв'язок з інстинктом виживання.
Компанія Northpower, великий інфраструктурний підрядник у Новій Зеландії, використовує штучний інтелект для визначення пріоритетності ризиків для громадської безпеки, зменшуючи зусилля та викиди вуглецю. Зіткнувшись з проблемами при перевірці електроопор на безпеку, Northpower поєднує цифрові та відскановані дані, щоб ефективно виявляти та усувати потенційні небезпеки.
Tesla та інші компанії стикаються з проблемами при оснащенні роботів штучним інтелектом. Робот Atlas від Boston Dynamics дає надію на створення багатоцільового домашнього дроїда.
Meta та Waymo представляють модель Transfusion, що поєднує трансформатор та дифузію для мультимодального прогнозування. Модель Transfusion використовує двонаправлену увагу трансформатора для маркерів зображень та завдання для попереднього навчання для тексту та зображень.
Cohere Rerank 3 Nimble FM покращує корпоративні пошукові системи, підвищуючи швидкість і точність шляхом ефективного переупорядкування релевантних документів. Amazon SageMaker JumpStart надає доступ до попередньо навчених моделей, таких як Cohere Rerank 3 Nimble, що дозволяє налаштовувати їх для конкретних випадків використання без необхідності починати з нуля.
Інтеграція пакетної нормалізації в архітектуру ViT скорочує час навчання та виведення більш ніж на 60%, зберігаючи або покращуючи точність. Модифікація передбачає заміну нормалізації шарів на пакетну нормалізацію в архітектурі трансформатора, що використовує лише кодер.
Розшифровка посадових ролей у сфері ВК є ключем до успіху співбесіди. Розуміння спектру ролей може вдосконалити стратегію та підвищити впевненість у собі.
Дослідники MIT CSAIL розробили RialTo - систему, яка створює цифрових двійників для швидшого та ефективнішого навчання роботів у певних умовах. RialTo покращила продуктивність роботів на 67% при виконанні різних завдань, легко справляючись з перешкодами та відволікаючими факторами.
NVIDIA представила на SIGGRAPH досягнення в галузі генеративного фізичного ШІ, включаючи мікросервіси NIM для створення інтерактивних візуальних агентів ШІ та навчання фізичних машин. Ця технологія трансформує такі галузі, як виробництво та охорона здоров'я, дозволяючи роботам та автоматизованим системам ефективніше орієнтуватися в навколишньому середовищі.
Amazon Forecast, запущений у 2019 році, тепер переводить користувачів на Amazon SageMaker Canvas для швидшого та економічно ефективнішого прогнозування часових рядів з підвищеною прозорістю та можливостями побудови моделей. SageMaker Canvas дозволяє на 50% швидше будувати моделі та на 45% швидше робити прогнози, а також забезпечує чудову прозорість моделей і можливість навчати ансамбль моделей...
Багатомовні LLM Llama 3.1, доступні на Amazon SageMaker JumpStart, пропонують оптимізовані моделі генеративного ШІ для розробників і бізнесу. SageMaker JumpStart надає доступ до попередньо навчених базових моделей, що дозволяє налаштовувати та безпечно розгортати їх у спеціальному середовищі VPC.
Супутникові знімки покращують моніторинг змін на Землі, але сегментація хмар має вирішальне значення. Для видалення хмар на знімках Sentinel-2 порівнюються такі алгоритми, як Random Forest та YOLO. Доступ до даних через Центр відкритого доступу Copernicus, Google Earth Engine або Python-пакет sentinelhub.
Фундаментальні моделі, такі як великі мовні моделі (LLM), адаптуються для моделювання часових рядів за допомогою великих фундаментальних моделей часових рядів (LTSM). Використовуючи подібність послідовних даних, LTSM має на меті навчатися на різноманітних даних часових рядів для таких завдань, як виявлення та класифікація викидів, спираючись на успіх LLM в обчислювальній лінгвістиці.
TDS святкує цю подію цікавими статтями про передові технології комп'ютерного зору та розпізнавання об'єктів. Серед основних моментів - підрахунок об'єктів на відео, відстеження гравців зі штучним інтелектом у хокеї та експрес-курс з планування автономного водіння.
MusGConv представляє блок згортки графів, натхненний сприйняттям, для обробки даних нотної партитури, підвищуючи ефективність і продуктивність в задачах розуміння музики. Традиційні підходи MIR розширюються за допомогою MusGConv, який моделює музичні партитури у вигляді графів для відображення складних, багатовимірних музичних взаємозв'язків.
PyTorch 2.0 представив torch.compile для швидшого виконання коду. AWS оптимізувала torch.compile для процесорів Graviton3, що призвело до значного покращення продуктивності для NLP, CV та рекомендаційних моделей.
Прорив Яна Лекуна 1989 року з використанням згорткових нейронних мереж зберіг дані просторових зображень, зробивши революцію в дослідженнях комп'ютерного зору. CNN використовують фільтри для вилучення карт об'єктів, накладання шарів для створення потужних класифікаторів зображень.
Трансформатори, відомі своєю революцією в НЛП, тепер чудово справляються із завданнями комп'ютерного зору. Дослідіть архітектури Vision Transformer та Masked Autoencoder Vision Transformer, які уможливили цей прорив.
Дослідники з Массачусетського технологічного інституту та Мета розробляють PlatoNeRF - техніку комп'ютерного зору, що використовує тіні та машинне навчання для створення точних 3D-моделей сцен, покращуючи ефективність автономних транспортних засобів та AR/VR. Поєднуючи лідар та штучний інтелект, PlatoNeRF пропонує нові можливості для реконструкцій і буде представлений на конференції з комп'юте...
Дослідники з Массачусетського технологічного інституту виявили, що великі мовні моделі можуть розуміти візуальний світ і генерувати складні сцени. Запропонувавши LLM самокорегувати код для зображень, вони покращили прості малюнки та навчили систему технічного зору без використання візуальних даних.
Sprinklr використовує ШІ для покращення клієнтського досвіду, досягнувши 20% підвищення продуктивності за допомогою AWS Graviton3 для економічно ефективного ML-висновку. Тисячі серверів налаштовують і обслуговують понад 750 моделей ШІ по 60+ вертикалях, обробляючи 10 мільярдів прогнозів щодня.
Вчені використовують штучний інтелект для визначення передових матеріалів для сонячних батарей. Інженери Массачусетського технологічного інституту розробляють техніку комп'ютерного зору, яка прискорює визначення характеристик матеріалів у 85 разів, з метою повністю автоматизованого скринінгу матеріалів.
Вибір правильного сценарію використання ШІ має вирішальне значення для успіху. ШІ може бути цінним навіть при помірній продуктивності, пропонуючи унікальні рішення. Приклади включають злиття сенсорів і генеративний ШІ в повсякденних продуктах.
Вчені з Массачусетського технологічного інституту та лабораторії штучного інтелекту MIT-IBM Watson AI Lab розробили новий підхід до навчання комп'ютерів визначати дії на відео, використовуючи лише транскрипт. Цей метод, який називається просторово-часовим заземленням, підвищує точність ідентифікації дій у довгих відео і може знайти застосування в онлайн-навчанні та охороні здоров'я.
Відкрийте для себе новаторські дослідження компанії XYZ щодо розробки нової технології штучного інтелекту, яка може зробити революцію в галузі охорони здоров'я. Дізнайтеся, як ця інновація покращить догляд за пацієнтами та точність діагностики.
Нове дослідження розкриває революційну технологію штучного інтелекту, розроблену компанією Google, яка революціонізує аналіз даних у сфері охорони здоров'я. Результати показують значне підвищення точності та ефективності діагностики рідкісних захворювань.
Дізнайтеся про новаторську співпрацю між Tesla та SpaceX, яка зробила революцію в електромобілях та космічних подорожах. Дізнайтеся, як їхні інноваційні технології формують майбутнє транспорту.
Дізнайтеся, як нова технологія безпілотного водіння Tesla революціонізує автомобільну індустрію. Завдяки вдосконаленим алгоритмам штучного інтелекту та найсучаснішим датчикам Tesla прокладає шлях до автономних транспортних засобів.
Дізнайтеся, як інноваційні стартапи революціонізують технологічну індустрію, створюючи передові продукти. Від рішень на основі штучного інтелекту до стійких технологій - ці компанії змінюють майбутнє.
Дізнайтеся про новаторську співпрацю між Tesla та SpaceX у розробці інноваційних рішень у сфері відновлюваної енергетики. Дізнайтеся, як бачення Ілона Маска революціонізує майбутнє транспорту та освоєння космосу.
Дослідники з Массачусетського технологічного інституту розробили систему FeatUp, яка покращує алгоритми комп'ютерного зору для одночасного захоплення деталей високого та низького рівня, революціонізуючи обробку зображень. FeatUp збільшує роздільну здатність у 16-32 рази, покращуючи такі завдання, як виявлення об'єктів та оцінка глибини, пропонуючи новий рівень чіткості в моделях штучного інтел...
3D гаусівське розбризкування, новий метод синтезу нового вигляду, кидає виклик NeRF як домінуючій техніці представлення 3D-сцен. Цей метод використовує анізотропні гаусиани для відтворення чітких 3D-моделей у реальному часі, забезпечуючи унікальний підхід до представлення сцени та рендерингу зображень.
Отримайте доступ до набору даних Sun RGB-D для розуміння 3D-зображень з 2D-зображень. Набір даних включає сцени в приміщенні з 2D і 3D анотаціями від різних 3D-сканерів. Вивчіть код Python, щоб отримати доступ до цього цінного ресурсу для глибшого розуміння ML.
Останні досягнення в галузі штучного інтелекту, включаючи GenAI та LLM, революціонізують галузі завдяки підвищенню продуктивності та можливостей. Архітектури трансформаторів зору, такі як ViTs, змінюють комп'ютерний зір, пропонуючи чудову продуктивність і масштабованість порівняно з традиційними CNN.
Дослідники Массачусетського технологічного інституту розробили набір даних для імітації периферійного зору в моделях штучного інтелекту, що покращує розпізнавання об'єктів. Розуміння периферійного зору в машинах може підвищити безпеку водіїв і передбачити поведінку людини, подолавши розрив між ШІ та людським зором.
У статті висвітлено розгортання ML-моделей у хмарі, об'єднання полів CS і DS та подолання обмежень пам'яті при розгортанні моделей. Ключові технології включають Detectron2, Django, Docker, Celery, Heroku та AWS S3.
У цій статті обговорюється важливість високоякісних даних і зменшення помилок маркування в моделях оцінки пози. Вона демонструє, як спеціальний робочий процес маркування в Amazon SageMaker Ground Truth може впорядкувати процес маркування і мінімізувати помилки, що в кінцевому підсумку зменшує витрати на отримання точних міток поз.
Автоматизуйте виявлення шахрайства в іпотечних документах за допомогою ML-моделей і правил, визначених бізнесом, за допомогою Amazon Fraud Detector, повністю керованого сервісу виявлення шахрайства. Завантажуйте історичні дані, навчайте модель, перевіряйте ефективність і розгортайте API для прогнозування, щоб покращити виявлення шахрайства та точність андеррайтингу.
Технологія штучного інтелекту здатна перетворювати зображення їжі на рецепти, що дозволяє надавати персоналізовані рекомендації щодо їжі, адаптувати їх до культурних особливостей та автоматизувати процес приготування. Цей інноваційний метод поєднує комп'ютерний зір і обробку природної мови для створення вичерпних рецептів на основі зображень їжі, долаючи розрив між візуальними зображеннями стр...
Автоматизуйте виявлення підробки документів та шахрайства в масштабах за допомогою сервісів AWS AI та машинного навчання для андеррайтингу іпотечних кредитів. Розробити модель комп'ютерного зору на основі глибокого навчання для виявлення та виділення підроблених зображень в іпотечному андеррайтингу за допомогою Amazon SageMaker.
Розблокування ефективності роботів: Мультимодальні моделі ШІ революціонізують комплексне планування
Лабораторія неймовірного штучного інтелекту Массачусетського технологічного інституту розробила мультимодальний фреймворк під назвою HiP, який використовує три різні базові моделі, щоб допомогти роботам створювати детальні плани для виконання складних завдань. На відміну від інших моделей, HiP не потребує доступу до даних парного зору, мови та дій, що робить її більш економічно ефективною та п...
У цій статті досліджується монокулярна оцінка глибини (MDE) та її важливість для додатків комп'ютерного зору. Вона містить покрокову інструкцію із завантаження та візуалізації даних карти глибини, запуску виведення за допомогою Marigold і DPT, а також оцінювання прогнозів глибини за допомогою набору даних SUN RGB-D.
У статті досліджується використання легких ієрархічних трансформаторів зору в автономній робототехніці, підкреслюється ефективність концепції спільної магістралі для багатозадачного навчання. У ній також обговорюється поява великих мультимодальних моделей та їхній потенціал у створенні уніфікованої архітектури для наскрізних рішень автономного водіння.
Комп'ютерний зір еволюціонував від маленьких піксельних зображень до створення зображень високої роздільної здатності на основі описів, причому менші моделі покращують продуктивність у таких сферах, як фотографування смартфонів та автономні транспортні засоби. Модель ResNet домінує в комп'ютерному зорі вже майже вісім років, але з'являються нові розробки, такі як Vision Transformer (ViT), що д...
PGA TOUR розробляє систему відстеження положення м'яча наступного покоління, яка використовує комп'ютерний зір і методи машинного навчання для визначення місцезнаходження м'ячів для гольфу на паттінг-гріні. Система, розроблена Інноваційним центром Amazon Generative AI, успішно відстежує положення м'яча та прогнозує координати його спокою.
2024 рік може стати переломним для музичного ШІ завдяки проривам у перетворенні тексту на музику, музичному пошуку та чат-ботам. Однак ця сфера все ще відстає від мовленнєвого ШІ, і для того, щоб революціонізувати музичну взаємодію за допомогою ШІ, необхідний прогрес у гнучкому і природному розділенні джерел.
Гаусове розбризкування - це швидкий і зрозумілий метод представлення 3D-сцен без нейронних мереж, що набуває популярності у світі, одержимому моделями штучного інтелекту. Він використовує 3D-точки з унікальними параметрами для точної відповідності рендерингу відомим зображенням з набору даних, пропонуючи свіжу альтернативу складним і непрозорим методам, таким як NeRF.
Автономні машини в робототехніці продемонстрували свої можливості в 2023 році, серед яких варто відзначити розумну коляску зі штучним інтелектом від Glüxkind, систему mGripAI для пакування харчових продуктів від Soft Robotics і робота TM25S від Quanta для інспекції продукції, в усіх з яких використовуються технології NVIDIA.
ICL, міжнародна виробнича та гірничодобувна корпорація, розробила власні можливості з використанням машинного навчання та комп'ютерного зору для автоматичного моніторингу свого гірничодобувного обладнання. За підтримки програми AWS Prototyping вони змогли створити фреймворк на AWS за допомогою Amazon SageMaker для отримання зображень з 30 камер, з потенціалом масштабування до тисяч.