«Яндекс» опубликовал библиотеку для ускорения обучения больших языковых моделей

Экономия ресурсов графических ускорителей может достигать 20%, а экономия времени на процедуру обучения — до 25%.

«Яндекс» опубликовал библиотеку для ускорения обучения больших языковых моделей

«Яндекс» разработал и выложил в публичный доступ библиотеку YaFSDP, которая позволяет ускорить обучение больших языковых моделей (LLM) с открытым исходным кодом. 

Технология позволяет сократить время на процедуру обучения до 25% — в компании отметили, что это лучший показатель на рынке среди существующих решений. Экономия ресурсов графических процессоров благодаря YaFSDP может достигать 20%.

«Сегодня это наиболее эффективный публичный метод ускорения коммуникации между графическими процессорами»
— компания

В основе YaFSDP — подход FSDP, или параллелизм с полным разбиением данных. Он позволяет оптимизировать загрузку ресурсов графических ускорителей, которые используются для обучения LLM, на всех этапах: предварительном обучении, обучении с учителем и «выравнивании» (alignment) модели. Библиотека задействует ровно столько ресурсов GPU, сколько нужно для обучения, и не замедляет коммуникацию между процессорами.

YaFSDP особенно эффективна в случае большими языковыми моделями. Технологией могут пользоваться сторонние компании, разработчики и исследователи как в России, так и в других странах.

Исходный код библиотеки уже доступен на GitHub.

«Яндекс» регулярно делится своими разработками с сообществом. Так, в 2022-м компания обнародовала нейросеть для генерации и обработки текстов YaLM 100B и фреймворк userver для создания высоконагруженных приложений на языке C++, а в 2023-м — платформу для работы с большими данными YTsaurus.