
«Яндекс» разработал и выложил в публичный доступ библиотеку YaFSDP, которая позволяет ускорить обучение больших языковых моделей (LLM) с открытым исходным кодом.
Технология позволяет сократить время на процедуру обучения до 25% — в компании отметили, что это лучший показатель на рынке среди существующих решений. Экономия ресурсов графических процессоров благодаря YaFSDP может достигать 20%.
«Сегодня это наиболее эффективный публичный метод ускорения коммуникации между графическими процессорами»— компания
В основе YaFSDP — подход FSDP, или параллелизм с полным разбиением данных. Он позволяет оптимизировать загрузку ресурсов графических ускорителей, которые используются для обучения LLM, на всех этапах: предварительном обучении, обучении с учителем и «выравнивании» (alignment) модели. Библиотека задействует ровно столько ресурсов GPU, сколько нужно для обучения, и не замедляет коммуникацию между процессорами.
YaFSDP особенно эффективна в случае большими языковыми моделями. Технологией могут пользоваться сторонние компании, разработчики и исследователи как в России, так и в других странах.
Исходный код библиотеки уже доступен на GitHub.
«Яндекс» регулярно делится своими разработками с сообществом. Так, в 2022-м компания обнародовала нейросеть для генерации и обработки текстов YaLM 100B и фреймворк userver для создания высоконагруженных приложений на языке C++, а в 2023-м — платформу для работы с большими данными YTsaurus.