Нарешті ШІ отримала необмежену пам’ять
У міру того як моделі штучного інтелекту стають дедалі більшими та складнішими, все важче ігнорувати одну з головних проблем – обмеження пам’яті. Навіть попри те, що графічні процесори (GPU) стають швидшими та потужнішими, масштабні системи ШІ часто стикаються з так званою “стіною пам’яті” – вузьким місцем, де недостатній обсяг пам’яті різко знижує обчислювальну ефективність.
Дослідники з Південної Кореї представили перспективне рішення цієї проблеми.
Інститут електроніки та телекомунікаційних досліджень (ETRI) презентував OmniXtend – технологію розширення пам’яті на основі Ethernet. Це рішення покликане усунути дефіцит пам’яті у середовищах масштабного навчання штучного інтелекту та може значно покращити масштабованість, економічну ефективність і продуктивність майбутньої інфраструктури ШІ.
Стрімке поширення великих мовних моделей (LLMs), генеративного ШІ та високопродуктивних обчислень різко збільшило потреби у пам’яті. Традиційні архітектури серверів жорстко прив’язують пам’ять до окремих пристроїв, що створює серйозні обмеження для масштабування.
OmniXtend пропонує принципово інший підхід. Замість використання лише локально підключеної пам’яті система застосовує стандартні Ethernet-мережі як середовище для міжпроцесорного з’єднання пам’яті. Це дозволяє динамічно об’єднувати та спільно використовувати ресурси пам’яті між серверами та прискорювачами, формуючи єдиний масштабований “пул пам’яті”, доступ до якого здійснюється в режимі реального часу.
На практиці це означає, що розподілені ресурси пам’яті в межах усієї мережі можуть працювати як єдина цілісна та масштабована система.
Традиційні системи високопродуктивних обчислень зазвичай покладаються на швидкісні послідовні інтерфейси, такі як PCIe. Хоча вони ефективні для невеликих конфігурацій, такі архітектури мають обмеження щодо масштабованості, дальності підключення та гнучкості розгортання.
Натомість OmniXtend використовує існуючу інфраструктуру Ethernet та стандартні Ethernet-комутатори для об’єднання кількох фізично розподілених пристроїв у середовище зі спільною пам’яттю.
Основні переваги технології:
- зменшення затримок під час передачі даних у процесі навчання AI-моделей;
- розширення обсягу пам’яті без необхідності заміни існуючих серверів;
- зниження витрат на розгортання та експлуатацію дата-центрів;
- покращена масштабованість для гіпермасштабних систем ШІ.
Завдяки зменшенню кількості вузьких місць, пов’язаних із пам’яттю, технологія дозволяє ШІ підтримувати вищий рівень продуктивності навіть за складних умов роботи.
Для перевірки архітектури ETRI розробив кілька ключових компонентів, зокрема:
- вузол розширення пам’яті на базі програмованої матриці логічних елементів;
- механізм передачі пам’яті через Ethernet;
- масштабовану систему керування спільною пам’яттю.
Команда успішно продемонструвала роботу декількох пристроїв у середовищі Ethernet із доступом до ресурсів спільної пам’яті в режимі реального часу.
Під час тестів із використанням великих мовних моделей дослідники зафіксували суттєве падіння продуктивності LLM при недостатньому обсязі пам’яті. Однак після активації розширення пам’яті через Ethernet продуктивність зросла більш ніж удвічі. За даними ETRI, це підтверджує, що архітектури спільної пам’яті здатні забезпечувати рівень обробки даних, співставний із системами, які мають достатній локальний обсяг пам’яті.
ETRI планує комерціалізувати OmniXtend через партнерство з компаніями, які займаються апаратним та програмним забезпеченням для центрів обробки даних. Потенційні сфери застосування включають сервери для навчання та інференсу ШІ, пристрої розширення пам’яті та високопродуктивні мережеві комутатори. Інститут також планує адаптувати технологію для високонадійних вбудованих систем, зокрема автомобільних платформ і морських застосувань.