Дослідники з Microsoft Research та Університету Чжецзян представляють World-R1 — фреймворк, який за допомогою підкріплювального навчання узгоджує генерацію відео з 3D-обмеженнями. World-R1 покращує якість відео, використовуючи приховані 3D-дані, не змінюючи базову архітектуру та не збільшуючи витрати на інференцію.
OpenClaw, автономний AI-асистент, швидко став сенсацією на GitHub, набравши понад 250 000 зірочок за 60 днів. Компанія NVIDIA співпрацює з проектом з метою підвищення його безпеки та надійності, запровадивши NemoClaw для забезпечення безпечної роботи агентів, що працюють у тривалому режимі.
Штучний інтелект, що використовує протокол Model Context Protocol (MCP), отримує широкий спектр можливостей. Amazon Bedrock AgentCore Gateway забезпечує централізоване управління інтеграцією агентів та інструментів, а безсерверний проксі-сервер MCP на AgentCore Runtime дозволяє налаштовувати контроль трафіку MCP.
Компанія Poolside AI представляє моделі Laguna M. 1 та Laguna XS. 2, що відрізняються високою ефективністю та унікальними функціями. Модель Laguna XS. 2 має інноваційну архітектуру з технологією SWA та глобальними шарами уваги, що робить її ідеальною для локального використання на комп’ютерах.
Автор протестував регресійну модель «випадкового лісу» на наборі даних про діабет, що, як і очікувалося, дало низьку точність прогнозування. Для навчання моделі використовувалися нормалізовані дані, при цьому точність як на навчальному, так і на тестовому наборах становила приблизно 0,24.
IBM та MIT відкривають дослідницьку лабораторію MIT-IBM Computing Research Lab, яка зосередиться на штучному інтелекті та квантових обчисленнях з метою переосмислення майбутнього обчислювальної техніки. Лабораторія має на меті прискорити розвиток алгоритмів штучного інтелекту, квантових суперкомп’ютерів та гібридних обчислювальних систем для застосування у реальних умовах.
Розробники стикаються з труднощами в організації пам'яті для агентів штучного інтелекту, що призводить до вразливостей у системі безпеки. Amazon Bedrock AgentCore Memory використовує простори імен для впорядкованого, доступного та безпечного зберігання даних у пам'яті. Простори імен забезпечують ієрархічний доступ до даних та контроль доступу, що є необхідним для створення ефективних систем па...
Лабораторія FAIR компанії Meta випустила NeuralSet — фреймворк на Python, що вирішує проблеми з обробкою даних у галузі нейронауки. NeuralSet розділяє структуру та дані, спрощуючи складне вирівнювання нейронних часових рядів для фреймворків штучного інтелекту.
Упередженість штучного інтелекту в медичних моделях ШІ може призвести до помилкових діагнозів. Новий підхід до усунення упередженості під назвою WRING покликаний вирішити проблему упередженості у великих мовних моделях (VLM), таких як OpenCLIP, уникнувши при цьому «дилеми Whac-A-Mole».
Рішення PwC для анотації на основі штучного інтелекту (AIDA), створене на базі AWS, оптимізує аналіз договорів, скорочуючи час ручної перевірки на 90%. AIDA поєднує великі мовні моделі з автоматизованими робочими процесами вилучення даних для отримання структурованих висновків та надання відповідей з урахуванням контексту, що кардинально змінює підхід до управління договорами.
Дослідники з Массачусетського технологічного інституту (MIT) розробили метод, який підвищує ефективність федеративного навчання на 81%, що дозволяє безпечно навчати штучний інтелект на периферійних пристроях з обмеженими ресурсами. Цей прорив може розширити сферу застосування штучного інтелекту в галузі охорони здоров’я та фінансів, забезпечивши потужними моделями навіть невеликі пристрої.
NVIDIA Nemotron 3 Nano Omni на платформі Amazon SageMaker JumpStart пропонує мультимодальну модель для інтелектуальних додатків, яка забезпечує розуміння відео, аудіо, зображень та тексту за один прохід. Вона спрощує робочі процеси агентів завдяки обробці екранів, документів, аудіо та відео в рамках єдиного циклу міркування, що дозволяє зменшити затримку
Перехід від текстових агентів до голосових помічників за допомогою Amazon Nova 2 Sonic забезпечує природну взаємодію в режимі реального часу у сферах фінансів, охорони здоров’я та роздрібної торгівлі. Розробка голосових агентів вимагає лаконічних, розмовних відповідей, адаптованих для сприйняття в режимі реального часу, що відрізняється від підходу текстових агентів, заснованого на використанн...
Моделі регресії на основі машинного навчання дозволяють прогнозувати числові значення, такі як кредитні рейтинги. Для навчання можна використовувати різні методи, наприклад лінійну регресію та нейронні мережі. Демонстраційний приклад на мові C# ілюструє різні методи навчання моделей лінійної регресії.
MOSS-Audio, розроблена компаніями OpenMOSS, MOSI. AI та Шанхайським інститутом інновацій, — це модель з відкритим кодом, яка об’єднує функції розпізнавання мови, звуків, музики та інші можливості. Вона складається з чотирьох варіантів, оптимізованих для різних завдань, і базується на модульній архітектурі, що включає аудіокодер, адаптер модальності та велику мовну модель.