Компанія Alibaba Cloud стверджує, що її нова система пулінгу графічних процесорів Aegaeon скорочує використання графічних процесорів Nvidia на 82%, за рахунок чого 213 прискорювачів H20 обробляють робочі навантаження, для яких раніше було потрібно 1192.
Пулінг графічних процесорів (GPU pooling) — це технологічний підхід, за якого кілька графічних процесорів (GPU) об’єднуються в спільний пул — тобто в єдиний ресурс, який можна динамічно розподіляти між різними користувачами, застосунками або віртуальними машинами.
Замість того, щоб один GPU був закріплений за одним сервером чи користувачем, створюється «пул» обчислювальних потужностей, до якого можна підключати різні задачі за потреби. Це підвищує ефективність використання обладнання.
На відміну від проривів у часі навчання, які переслідують якість або швидкість моделі, Aegaeon — це планувальник часу виведення, призначений для максимального використання GPU в багатьох моделях з нестабільним або непередбачуваним попитом. Замість прив'язки одного прискорювача до однієї моделі, Aegaeon віртуалізує доступ до GPU на рівні токенів, що дозволяє йому планувати невеликі фрагменти роботи в спільному пулі. Це означає, що один H20 може обслуговувати кілька різних моделей одночасно, при цьому «goodput» (показник ефективної продуктивності) в масштабі всієї системи зростає в дев'ять разів порівняно зі старими безсерверними системами.
Повідомляється, що система тестувалася в умовах виробництва протягом декількох місяців. За цей період кількість графічних процесорів, необхідних для підтримки десятків різних LLM (розміром до 72 мільярдів параметрів), зменшилася з 1192 до всього 213. Хоча в статтіне сказано, які моделі найбільше сприяли економії, у повідомленні South China Morning Post йдеться, що тести проводилися з використанням Nvidia H20, одного з небагатьох прискорювачів, які все ще легально доступні китайським покупцям за чинним експортним контролем США.