Стрічка новин про штучний інтелект і машинне навчання

Головні новини та публікації щодня! Будьте на крок попереду: дізнавайтеся першими про нові ідеї, тренди та інновації у сфері технологій

Покращення геометричної узгодженості в Wan 2.1 за допомогою Flow-GRPO та 3D Rewards

Дослідники з Microsoft Research та Університету Чжецзян представляють World-R1 — фреймворк, який за допомогою підкріплювального навчання узгоджує генерацію відео з 3D-обмеженнями. World-R1 покращує якість відео, використовуючи приховані 3D-дані, не змінюючи базову архітектуру та не збільшуючи витрати на інференцію.

Безпечне навчання штучного інтелекту на повсякденних пристроях

Дослідники з Массачусетського технологічного інституту (MIT) розробили метод, який підвищує ефективність федеративного навчання на 81%, що дозволяє безпечно навчати штучний інтелект на периферійних пристроях з обмеженими ресурсами. Цей прорив може розширити сферу застосування штучного інтелекту в галузі охорони здоров’я та фінансів, забезпечивши потужними моделями навіть невеликі пристрої.

Формуючи майбутнє: обчислювальна лабораторія MIT-IBM

IBM та MIT відкривають дослідницьку лабораторію MIT-IBM Computing Research Lab, яка зосередиться на штучному інтелекті та квантових обчисленнях з метою переосмислення майбутнього обчислювальної техніки. Лабораторія має на меті прискорити розвиток алгоритмів штучного інтелекту, квантових суперкомп’ютерів та гібридних обчислювальних систем для застосування у реальних умовах.

Нові моделі штучного інтелекту для обробки зображень, знятих біля басейну, демонструють високу точність на наборі даних SWE-bench

Компанія Poolside AI представляє моделі Laguna M. 1 та Laguna XS. 2, що відрізняються високою ефективністю та унікальними функціями. Модель Laguna XS. 2 має інноваційну архітектуру з технологією SWA та глобальними шарами уваги, що робить її ідеальною для локального використання на комп’ютерах.

Представляємо NeuralSet: найкращий пакет для нейромереж на Python

Лабораторія FAIR компанії Meta випустила NeuralSet — фреймворк на Python, що вирішує проблеми з обробкою даних у галузі нейронауки. NeuralSet розділяє структуру та дані, спрощуючи складне вирівнювання нейронних часових рядів для фреймворків штучного інтелекту.

Масштабування пам'яті агента: шаблони проектування просторів імен

Розробники стикаються з труднощами в організації пам'яті для агентів штучного інтелекту, що призводить до вразливостей у системі безпеки. Amazon Bedrock AgentCore Memory використовує простори імен для впорядкованого, доступного та безпечного зберігання даних у пам'яті. Простори імен забезпечують ієрархічний доступ до даних та контроль доступу, що є необхідним для створення ефективних систем па...

Незадовільні результати: регресія методом «випадкового лісу» на наборі даних про діабет

Автор протестував регресійну модель «випадкового лісу» на наборі даних про діабет, що, як і очікувалося, дало низьку точність прогнозування. Для навчання моделі використовувалися нормалізовані дані, при цьому точність як на навчальному, так і на тестовому наборах становила приблизно 0,24.

Безсерверні проксі-сервери MCP на Amazon Bedrock

Штучний інтелект, що використовує протокол Model Context Protocol (MCP), отримує широкий спектр можливостей. Amazon Bedrock AgentCore Gateway забезпечує централізоване управління інтеграцією агентів та інструментів, а безсерверний проксі-сервер MCP на AgentCore Runtime дозволяє налаштовувати контроль трафіку MCP.

Усунення упередженості в моделях штучного інтелекту для обробки зображень: більш розумний підхід

Упередженість штучного інтелекту в медичних моделях ШІ може призвести до помилкових діагнозів. Новий підхід до усунення упередженості під назвою WRING покликаний вирішити проблему упередженості у великих мовних моделях (VLM), таких як OpenCLIP, уникнувши при цьому «дилеми Whac-A-Mole».

Аналітика контрактів на основі штучного інтелекту від PwC на платформі AWS

Рішення PwC для анотації на основі штучного інтелекту (AIDA), створене на базі AWS, оптимізує аналіз договорів, скорочуючи час ручної перевірки на 90%. AIDA поєднує великі мовні моделі з автоматизованими робочими процесами вилучення даних для отримання структурованих висновків та надання відповідей з урахуванням контексту, що кардинально змінює підхід до управління договорами.

NVIDIA Nemotron 3 Nano Omni: Amazon SageMaker JumpStart Release

NVIDIA Nemotron 3 Nano Omni на платформі Amazon SageMaker JumpStart пропонує мультимодальну модель для інтелектуальних додатків, яка забезпечує розуміння відео, аудіо, зображень та тексту за один прохід. Вона спрощує робочі процеси агентів завдяки обробці екранів, документів, аудіо та відео в рамках єдиного циклу міркування, що дозволяє зменшити затримку

Від текстового агента до голосового помічника: посібник з використання Amazon Nova 2 Sonic

Перехід від текстових агентів до голосових помічників за допомогою Amazon Nova 2 Sonic забезпечує природну взаємодію в режимі реального часу у сферах фінансів, охорони здоров’я та роздрібної торгівлі. Розробка голосових агентів вимагає лаконічних, розмовних відповідей, адаптованих для сприйняття в режимі реального часу, що відрізняється від підходу текстових агентів, заснованого на використанн...

Опанування лінійної регресії в C#

Моделі регресії на основі машинного навчання дозволяють прогнозувати числові значення, такі як кредитні рейтинги. Для навчання можна використовувати різні методи, наприклад лінійну регресію та нейронні мережі. Демонстраційний приклад на мові C# ілюструє різні методи навчання моделей лінійної регресії.

Amazon Nova: надихаючі персоналізовані пропозиції назв від Popsa

Popsa використовує штучний інтелект та автоматизацію дизайну для створення персоналізованих фотоальбомів за лічені хвилини, покращуючи користувацький досвід та рівень задоволеності. Завдяки впровадженню моделей Amazon Bedrock та Amazon Nova у 2025 році було створено понад 5,5 мільйонів персоналізованих видань, що призвело до зростання рівня залученості та кількості покупок.

Представляємо MOSS-Audio: революція в області аудіоаналізу

MOSS-Audio, розроблена компаніями OpenMOSS, MOSI. AI та Шанхайським інститутом інновацій, — це модель з відкритим кодом, яка об’єднує функції розпізнавання мови, звуків, музики та інші можливості. Вона складається з чотирьох варіантів, оптимізованих для різних завдань, і базується на модульній архітектурі, що включає аудіокодер, адаптер модальності та велику мовну модель.