Команды EAGLE Team, vLLM Team и TorchSpec Team представляют версию EAGLE 3.1, которая повышает надежность спекулятивного декодирования. EAGLE 3.1 решает проблемы с отклонением внимания, обеспечивая повышенную стабильность и производительность в различных условиях.
Field Advisor на платформе Amazon Bedrock AgentCore оптимизирует координацию работы агентов в отделе продаж AWS, снижая когнитивную нагрузку и улучшая взаимодействие с клиентами. Этот внутренний диалоговый помощник повышает производительность за счет перенаправления запросов специализированным агентам, что позволяет торговым представителям сосредоточиться на потребностях клиентов.
Исследователи из Национального университета Сингапура и Массачусетского технологического института (MIT) предлагают систему MEMO для обновления больших языковых моделей (LLM) без потери качества, используя отдельные модели памяти и логического вывода. Уникальный конвейер обучения MEMO генерирует разнообразные пары «вопрос-ответ», что позволяет модели усваивать знания для логического вывода на ...
Для создания приложений на базе ИИ больше не требуются глубокие знания в области машинного обучения. С помощью Strands Agents и сервисов AWS можно создавать интеллектуальных агентов всего за 30 строк кода, что упрощает разработку решений на базе ИИ для сред AWS.
Amazon Quick позволяет специалистам создавать отформатированные документы и визуальные материалы на основе актуальных данных, что позволяет сэкономить время на рутинных задачах. Результаты могут быть выведены в форматах Word, Excel, PowerPoint, PDF, а также в виде бизнес-визуализаций, причем все они полностью доступны для редактирования, что позволяет продолжать работу без необходимости повтор...
Компания Stability AI выпустила Stable Audio 3 с открытыми весами и техническим документом. Модели латентной диффузии поддерживают вывод данных переменной длины и редактирование на основе ретуширования для генерации стереозвука.
Amazon Quick представляет собой централизованное решение для мониторинга корпоративных платформ искусственного интеллекта, которое объединяет данные об использовании для более эффективного отслеживания и анализа. Благодаря интеграции с сервисами AWS Amazon Quick обеспечивает мониторинг, аналитику и управление с помощью защищенного хранилища данных, Amazon Athena и панели инструментов Quick Sight.
Разработка функции обратного матричного преобразования с использованием разложения Холески: более лаконичный код или более высокая эффективность. Анализ методов разработки программного обеспечения с использованием кода, сгенерированного ИИ, и дизайна персонажей в анимационных фильмах.
Кэш KV является значительной статьёй затрат при обслуживании больших языковых моделей (LLM); его сжатие с помощью квантования на основе поворотов, реализованного в OSCAR, повышает эффективность при точности INT2. OSCAR вычисляет повороты на основе статистики внимания, чтобы уменьшить ошибки квантования, что позволяет улучшить качество внимания и повысить производительность модели.
Компания NVIDIA представляет модель Gated DeltaNet-2 с линейным механизмом внимания, предназначенную для улучшения обработки данных в памяти. Модель оснащена двумя канальными гейтами и демонстрирует более высокую производительность по сравнению с предыдущими моделями в исследовательских тестах.
В новом исследовании команды Nous представлена модель CNA, позволяющая точно определять нейроны MLP, ответственные за «барьеры отклонения» в моделях с инструкциями. Удаление всего 0,1 % активаций MLP снижает частоту отклонений более чем на 50 % без ущерба для качества выходных данных.
Инструмент Bumblebee от Perplexity сканирует рабочие станции разработчиков на наличие уязвимых пакетов, расширений и настроек инструментов искусственного интеллекта. Он восполняет пробел в существующих инструментах, проверяя локальную среду разработчика на наличие потенциальных угроз безопасности.
Для регрессоров нейронных сетей, работающих с категориальными данными, следует использовать кодирование «one-hot»; кодирование «drop-first» не является необходимым и оказывается несколько менее эффективным. Результаты демонстрации показывают, что нет оснований рассматривать кодирование «drop-first» для нейронных сетей, что подтверждает преимущества кодирования «one-hot».
Лаборатория AI Frontiers компании Microsoft Research выпустила Fara1.5 — семейство моделей компьютерных агентов для браузеров, интегрированных с MagenticLite. Модель Fara1.5-27B демонстрирует 72 % успешности выполнения задач на наборе данных Online-Mind2Web, превосходя по результатам таких конкурентов, как Operator от OpenAI и Gemini 2.5 от Google.
Command A+ от Cohere — это модель MoE с открытым исходным кодом, оптимизированная для агентных рабочих процессов и объединяющая в себе возможности четырёх предыдущих моделей. Благодаря наличию трёх вариантов квантования Command A+ демонстрирует значительное повышение производительности по сравнению с предыдущими моделями Command A при решении различных корпоративных задач.