Низкая утилизация GPU в xAI при тренировке моделей
Ключевые факты
- 1 MFU xAI составляет 11% при тренировке моделей.
- 2 Средний MFU для претрейна LLM обычно 30-35%.
- 3 Низкий MFU указывает на неэффективное использование GPU.
- 4 Проблема может быть связана с архитектурой, ПО или передачей данных.
Недавние данные указывают на то, что компания xAI, занимающаяся разработкой искусственного интеллекта, сталкивается с низкой эффективностью использования графических процессоров (GPU) при обучении своих моделей. Согласно информации, MFU (Model Flops Utilization) достигает лишь 11%. Этот показатель значительно ниже стандартных значений для индустрии, где во время предварительного обучения больших языковых моделей (LLM) MFU обычно колеблется в пределах 30-35%. Низкая утилизация мощностей GPU может указывать на различные проблемы, такие как узкие места в архитектуре системы, неэффективное распределение нагрузки, проблемы с передачей данных между узлами или недостаточная оптимизация программного обеспечения. Для xAI, которая не представляет принципиально новый класс моделей, такой низкий MFU означает более высокие затраты на обучение и замедление процесса разработки.