NVIDIA Nemotron 3 Nano Omni в рамках Amazon SageMaker JumpStart представляет собой мультимодальную модель для интеллектуальных приложений, обеспечивающую понимание видео, аудио, изображений и текста за один проход. Она упрощает рабочие процессы агентов за счет обработки экранов, документов, аудио и видео в рамках единого цикла вывода, что позволяет сократить задержки и снизить затраты.
Переход от текстовых агентов к голосовым помощникам с помощью Amazon Nova 2 Sonic обеспечивает естественное взаимодействие в режиме реального времени в сфере финансов, здравоохранения и розничной торговли. Разработка голосовых агентов требует лаконичных, разговорных ответов, адаптированных для восприятия в режиме реального времени, что отличается от подхода текстовых агентов, основанного на ис...
Модели регрессии на основе машинного обучения позволяют прогнозировать числовые значения, такие как кредитные рейтинги. Для обучения могут использоваться различные методы, например линейная регрессия и нейронные сети. Демонстрационный пример на языке C# иллюстрирует различные методы обучения моделей линейной регрессии.
LoRA эффективно осуществляет финнастройку крупных моделей, но испытывает трудности с обработкой сложных фактических знаний. RS-LoRA обеспечивает стабильность обучения при более высоких рангах с помощью простой настройки масштабирования.
Компания Deloitte использовала Amazon EKS и vCluster для модернизации своей инфраструктуры тестирования. Автоматизированное решение синхронизирует данные из S3 с базами знаний Amazon Bedrock с учетом квот на использование сервисов и ограничений по скорости.
Развитие искусственного интеллекта приведет к росту энергопотребления в дата-центрах США; Массачусетский технологический институт (MIT) и IBM разрабатывают инструмент для оперативного прогнозирования энергопотребления с целью обеспечения устойчивой эффективности ИИ. Этот инструмент позволяет быстро оценивать энергопотребление, что помогает операторам дата-центров и разработчикам алгоритмов.
Popsa использует искусственный интеллект и автоматизацию дизайна для создания персонализированных фотокниг за считанные минуты, что повышает качество обслуживания и удовлетворенность пользователей. Благодаря внедрению моделей Amazon Bedrock и Amazon Nova в 2025 году было создано более 5,5 миллиона персонализированных изданий, что привело к росту вовлеченности пользователей и показателей продаж.
Рефакторинг псевдообратной матрицы с помощью нормальных уравнений упрощает код для машинного обучения. Разложение Холески снижает сложность обработки матриц обучающих данных в задачах машинного обучения.
Конечные точки Amazon SageMaker AI позволяют организациям управлять вычислительными ресурсами и размещением инфраструктуры, одновременно используя преимущества управляемого операционного уровня AWS. SDK Strands Agents упрощает создание ИИ-агентов, интеграцию с моделями SageMaker AI и проведение A/B-тестирования для постоянного совершенствования.
MOSS-Audio, разработанная OpenMOSS, MOSI. AI и Шанхайским институтом инноваций, представляет собой модель с открытым исходным кодом, объединяющую в себе функции распознавания речи, звуков, музыки и многое другое. Она состоит из четырёх вариантов, оптимизированных для различных задач, и основана на модульной архитектуре, включающей аудиокодер, адаптер модальности и крупную языковую модель.
PageIndex революционизирует процесс поиска документов благодаря использованию деревовидного индекса и моделей большого языкового обучения (LLM) для логического вывода, превосходя по эффективности векторные системы, такие как RAG. Проиндексировав статью о Transformer без использования векторов, PageIndex демонстрирует свою точность и способность к глубокому пониманию, что делает его настоящим п...
Индийский студент-программист создал GitNexus для оптимизации работы агентов по написанию кода на базе ИИ. GitNexus заранее вычисляет всю структуру зависимостей для точного анализа кода.
В новой статье Google представлена модель Vision Banana — универсальная модель, которая демонстрирует высокую эффективность при решении различных задач компьютерного зрения, сохраняя при этом способность генерировать изображения. Этот прорыв ставит под сомнение традиционное разделение на генеративные и дискриминативные модели в области компьютерного зрения.
Google DeepMind представляет Decoupled DiLoCo — архитектуру распределенного обучения, которая устраняет узкие места, связанные с синхронизацией, и позволяет проводить предварительное обучение крупных языковых моделей в географически удаленных дата-центрах. Decoupled DiLoCo снижает требования к пропускной способности межцентровой сети с 198 Гбит/с до всего 0,84 Гбит/с, что делает обучение в гло...
MathNet, созданный исследователями из MIT, KAUST и HUMAIN, представляет собой крупнейший набор данных, содержащий математические задачи с доказательствами, охватывающий 47 стран и 17 языков. Он представляет собой централизованную коллекцию высококачественных задач и решений из международных математических олимпиад, предлагая моделям искусственного интеллекта и учащимся богатый ресурс для изуче...