В новой статье Google представлена модель Vision Banana — универсальная модель, которая демонстрирует высокую эффективность при решении различных задач компьютерного зрения, сохраняя при этом способность генерировать изображения. Этот прорыв ставит под сомнение традиционное разделение на генеративные и дискриминативные модели в области компьютерного зрения.
Индийский студент-программист создал GitNexus для оптимизации работы агентов по написанию кода на базе ИИ. GitNexus заранее вычисляет всю структуру зависимостей для точного анализа кода.
DeepSeek-AI представляет серию DeepSeek-V4 с инновационными моделями MoE, поддерживающими контекстные окна объемом в миллион токенов. Гибридная архитектура внимания и гиперсвязи с ограничением многообразия (Manifold-Constrained Hyper-Connections) кардинально меняют подход к решению задач с длинным контекстом.
Google DeepMind представляет Decoupled DiLoCo — архитектуру распределенного обучения, которая устраняет узкие места, связанные с синхронизацией, и позволяет проводить предварительное обучение крупных языковых моделей в географически удаленных дата-центрах. Decoupled DiLoCo снижает требования к пропускной способности межцентровой сети с 198 Гбит/с до всего 0,84 Гбит/с, что делает обучение в гло...
MathNet, созданный исследователями из MIT, KAUST и HUMAIN, представляет собой крупнейший набор данных, содержащий математические задачи с доказательствами, охватывающий 47 стран и 17 языков. Он представляет собой централизованную коллекцию высококачественных задач и решений из международных математических олимпиад, предлагая моделям искусственного интеллекта и учащимся богатый ресурс для изуче...
Достижения в области искусственного интеллекта в здравоохранении позволяют объединять разрозненные потоки данных, что способствует принятию более обоснованных решений в сфере персонализированной медицины. Мультимодальные системы BioFM, такие как Latent-X1 и Evo 2, кардинально меняют подход к открытию новых лекарственных препаратов и клиническим испытаниям благодаря моделям искусственного интел...
Исследователи из Google Cloud AI, Университета Иллинойса в Урбана-Шампейне и Йельского университета представляют ReasoningBank — систему памяти, которая выделяет причины успеха или неудачи задач, выполняемых агентами искусственного интеллекта. Существующие системы памяти агентов имеют серьезные «слепые зоны», однако ReasoningBank извлекает релевантные воспоминания для повышения эффективности р...
Автор делится опытом применения набора данных по диабету в регрессионной модели на основе нейронной сети на языке C#, которая позволяет точно прогнозировать показатели диабета. Благодаря нормализации данных и настройкам нейронной сети были получены результаты, сопоставимые с результатами других регрессионных моделей.
TrendMicro расширяет возможности своего чат-бота на базе искусственного интеллекта, добавив функцию «корпоративной памяти» в Amazon Bedrock, которая работает на базе Amazon Neptune и Mem0. Такая архитектура позволяет чат-боту анализировать историю взаимодействий, извлекать корпоративные знания и давать персонализированные ответы, что способствует улучшению пользовательского опыта.
Исследователи из Массачусетского технологического института (MIT) разработали метод RLCR для повышения точности оценок уверенности моделей искусственного интеллекта, что позволяет сократить количество ошибок на 90 % без ущерба для общей точности. Данная методика обучает модели выдавать откалиброванные оценки уверенности, решая проблему завышенной уверенности в моделях искусственного интеллекта...
Использование модели NVIDIA Parakeet-TDT-0.6B-v3 в AWS Batch на инстансах с ускорением на GPU позволяет быстрее и с меньшими затратами выполнять транскрипцию аудиофайлов на нескольких европейских языках. Архитектура «Token-and-Duration Transducer» этой модели интеллектуально пропускает паузы, что значительно сокращает время обработки и затраты, делая её масштабируемым решением для организаций ...
ml-intern от Hugging Face автоматизирует рабочие процессы после обучения для больших языковых моделей (LLM), превосходя существующие передовые результаты на PostTrainBench. Он использует генерацию синтетических данных и GRPO для эффективного обучения и оценки.
Обучению мощных моделей искусственного интеллекта мешает нехватка специализированных данных, однако платформа Simula, разработанная Google и EPFL, предлагает прозрачное и масштабируемое решение. Simula решает проблему генерации синтетических данных за счет одновременного контроля качества, разнообразия и сложности с помощью таксономий, мета-подсказок и двойных критериев оценки.
Программа объединяет несколько вариантов псевдообратной матрицы Мура-Пенроуза, используя алгоритмы QR-разложения. Варианты Хаусхолдера, Грамма-Шмидта и Гивенса прошли тщательное тестирование на случайных матрицах.
Команды, занимающиеся машинным обучением (ML), сталкиваются с проблемами отслеживаемости моделей, однако объединение DVC, SageMaker AI и приложений MLflow позволяет решить эту проблему. Такой интегрированный рабочий процесс гарантирует, что каждая модель будет связана с конкретными обучающими данными, что имеет решающее значение для отраслей, подпадающих под регулирование, таких как здравоохра...