Новости

Свежие новости и полезные статьи про искусственный интеллект и машинное обучение

Новый метод для повышения точности компьютерного зрения

Представленный подход использует синтетические данные для повышения точности моделей искусственного интеллекта, распознающих изображения.

Для того, чтобы модель машинного обучения могла выполнять задачи диагностики заболеваний на основе медицинских изображений, ее необходимо этому научить. Обучение модели классификации изображений обычно требует огромный набор данных, миллионы примеров подобных изображений. И здесь возникают проблемы.

Использование данных с реальных медицинских изображений не всегда этично. Ведь это может быть вмешательством в частную жизнь людей, нарушением авторского права, либо такой набор данных может оказаться предвзятым в отношении определенной расовой или этнической группы. Для минимизации этих рисков можно отказаться от набора данных с реальными изображениями и вместо этого использовать программы генерации изображений. Такой подход позволит создать синтетический набор данных для обучения модели классификации изображений. Однако эти методы ограничены, поскольку часто требуются экспертные знания для ручной разработки программ генерации изображений, которые смогли бы создавать эффективные обучающие данные.

Исследователи из Массачусетского технологического института, Лаборатории искусственного интеллекта Watson AI Lab при Массачусетском технологическом институте IBM и из других стран проанализировали все проблемы, возникающие при создании наборов данных с изображениями, и представили иное решение задачи. Они отказались от разработки индивидуальной программы генерации изображений и собрали большую коллекцию базовых программ генерации изображений для конкретной учебной задачи из общедоступных программ в Интернете.

Их набор насчитывал 21 000 разных программ, которые способны создавать изображения простых текстур и цветов. Программы были небольшими, обычно их код занимал всего несколько строк. Исследователи не меняли эти программы и сразу использовали их для генерации набора изображений.

Этот набор данных они применили для обучения модели компьютерного зрения. По результатам тестирования выяснилось, что модели, обученные на таком наборе данных, классифицировали изображения более точно, чем другие искусственно обученные модели. И при этом такие модели все еще уступали моделям, обученным на реальных данных. Также исследователи выяснили, что увеличение количества программ обработки изображений в наборе данных увеличивает производительность модели, благодаря чему возможно достичь более высокой точности.

Оказалось, что использование большого количества программ, не требующих дополнительной работы с ними, на самом деле лучше, чем использование небольшого набора программ, которым необходима дополнительная обработка. Данные, безусловно, важны, но этот эксперимент показал, что без реальных данных тоже можно достичь хороших результатов.

Исследование ученых позволяет переосмыслить процесс предварительной подготовки данных. Модели машинного обучения, обычно, предварительно обучены. Они сначала обучаются на одном наборе данных, создают параметры, а затем их можно использовать для решения другой задачи.

Так, например, модель, предназначенная для классификации рентгеновских снимков, сначала может быть предварительно обучена с использованием огромного набора данных синтетически сгенерированных изображений. И только потом для выполнения своей реальной задачи она будет обучена с применением намного меньшего набора данных реальных рентгеновских снимков. Проблема такого метода заключается в том, что синтетические изображения должны соответствовать определенным свойствам реальных изображений. А это, в свою очередь, требует дополнительной работы с программами, которые такие синтетические изображения генерируют. Это затрудняет процесс обучения таких моделей.

Вместо этого исследователи из Лаборатории искусственного интеллекта Watson AI Lab в своей работе использовали простые программы для генерации изображений. Их было очень много, и они были собраны из Интернета. Программы должны были быстро генерировать изображения, поэтому отбирались те, которые написаны на простом языке программирования и содержат всего несколько фрагментов кода. Требования к генерации тоже были достаточно просты: нужны были изображения, которые выглядят как абстрактное искусство.

Эти программы работали так быстро, что не было необходимости заранее готовить набор изображений для обучения модели. Программы генерировали изображения и модель сразу же на них обучалась. Это очень упрощает процесс.

Ученые применили свой огромный набор программ генерации изображений для предварительной подготовки моделей компьютерного зрения как для контролируемых, так и для неконтролируемых задач классификации изображений. При обучении с учителем данные изображения помечаются, а при обучении без учителя модель учится классифицировать изображения без меток.

Когда они сравнили свои предварительно обученные модели с современными моделями компьютерного зрения, которые были предварительно обучены с использованием синтетических данных, их модели оказались более точными, они чаще помещали изображения в правильные категории. Хотя уровни точности все еще были ниже, чем у моделей, обученных на реальных данных, этот метод сократил разрыв в производительности между моделями, обученными на реальных и синтетических данных, на 38 процентов.

Эта исследовательская работа также демонстрирует, что для количества программ, которые будут отобраны, производительность увеличивается логарифмически. Если собрать больше программ, модель будет работать еще лучше. Таким образом, исследователи подчеркивают, что есть способ расширить их подход.

Чтобы определить факторы, влияющие на точность модели, каждую программу генерации изображений исследователи использовали отдельно для предварительного обучения. Они обнаружили, что чем более разнообразный набор изображений генерирует программа, тем лучше работает модель. Также было замечено, что цветные изображения, заполняющие весь холст, наиболее предпочтительны для улучшения производительности модели.

Такой подход к предварительному обучению оказался весьма успешным. Исследователи планируют применить свои методы на других типах данных, таких как мультимодальные данные, включающие текст и изображения. Они также хотят продолжить изучение способов повышения производительности классификации изображений.

Ознакомится с исследованием можно здесь.