Денис Гурьянов 3 802 0

«Яндекс» опубликовал исходный код платформы для работы с большими данными YTsaurus

С ней работает большинство сервисов «Яндекса».

Компания «Яндекс» опубликовала исходный код YTsaurus — платформы для хранения и обработки больших данных, с которой работает большинство сервисов «Яндекса».

В компании описывают YTsaurus так:

«Платформа подходит для широкого круга задач, от аналитики до обучения сложных моделей с миллиардами параметров. Например, „Поиск“ строит с помощью YTsaurus поисковый индекс, а беспилотные автомобили используют платформу, чтобы обрабатывать данные о поездках и улучшать свои алгоритмы. YTsaurus управляет суперкомпьютерами „Яндекса“, распределяя нагрузку так, чтобы их вычислительные мощности использовались наиболее эффективно».

Руководитель отдела технологий распределённых вычислений «Яндекса» Максим Бабенко рассказал, что разработка YTsaurus ведётся с 2010 года. Компания начала делать собственную платформу для работы с большими данными, потому что ни одно из имевшихся на рынке решений не отвечало необходимым требованиям. На данный момент YTsaurus является одним из ключевых элементов внутренней инфраструктуры «Яндекса».

YTsaurus — отказоустойчивая и легко масштабируемая платформа. Её можно использовать как классическую MapReduce-систему, но при этом есть поддержка и других популярных подходов к обработке данных — например, есть интеграции с ClickHouse и Apache Spark.

В «Яндексе» выразили мнение, что YTsaurus принесёт наибольшую пользу крупным компаниям, которые обрабатывают гигантские объёмы данных на тысячах серверов в условиях постоянно возрастающей нагрузки. Публикация исходного кода в открытый доступ выведет платформу «на новый виток развития».

Код и документация YTsaurus доступны на GitHub. Код распространяется под лицензией Apache 2.0. Платформу можно не только свободно использовать, но и доработать под определённые нужды.