Читать, слушать и смотреть одновременно: как алгоритмы учатся понимать разноформатный контент

И как этот навык отражается на пользовательском опыте.

Читать, слушать и смотреть одновременно: как алгоритмы учатся понимать разноформатный контент

Возможность начать смотреть видео на телефоне по дороге с работы, «перекинуть» его на экран телевизора дома и продолжить просмотр с того же момента — это уже данность. Единая учётная запись для множества приложений и сайтов, общие подписки — тоже. Экосистемы научились обеспечивать бесшовный пользовательский опыт на уровне интерфейсов.  

Следующий шаг — единые рекомендации: предпочтения из одного продукта учитываются в другом, даже если меняется формат контента. Воплотить эту идею в реальность помогают технологии понимания контента.

Как алгоритмы понимают контент

Современные ML-алгоритмы отлично умеют работать с пользователями — понимать их запросы, находить закономерности в предпочтениях и предсказывать интересы. Но чтобы рекомендации стали действительно точными и полезными, алгоритмы должны уметь понимать смысл самого контента: его тему, контекст и даже эмоциональный тон.

Речь идёт о почти человеческом уровне восприятия. Задача сама по себе сложная, особенно когда нужно анализировать контент разных форматов: от текстовых постов до видео.

Чтобы подобраться к решению, сначала нужно определить, какие компоненты составляют любую контентную единицу: визуальный ряд, речь, тексты, заголовки, описания, аудио. Всё это называют модальностями. 

Классические нейросети работают с одной модальностью: текстовая модель читает подписи, компьютерное зрение анализирует картинку. Такой подход не позволяет сопоставлять сигналы разного рода между собой. Из-за этого система легко ошибается — например, считает похожими ролики с одинаковыми названиями, но совершенно разным содержанием.

Чтобы рекомендательная система могла сопоставлять их между собой, находить связи между контентом и на их основе делать выводы, используются мультимодальные модели.

Они устроены иначе.

«Каждая модальность обрабатывается независимо, а затем все сигналы объединяются в единое смысловое представление — так называемый мультимодальный эмбеддинг. Это компактное числовое представление  ролика, которое отражает его тему, визуальный стиль и общий контекст. Мультимодальная контентная модель работает, например, в „VK Видео“. В итоге алгоритм получает компактное описание контента и может сравнивать ролики не только по визуальным признакам, но и по смыслу»
— Илья Алтухов, руководитель отдела экспериментальных технологий в направлении рекомендаций AI VK

Представление в виде эмбеддингов также позволяет рекомендательной системе сравнивать разные форматы контента: посты, клипы и длинные видео.

«Чтобы алгоритм не просто „видел“ текст, картинки и видео по отдельности, а понимал связь между ними, мы в VK используем contrastive learning — подход, при котором модель учится учитывать не только сходства, но и различия. Во время обучения эмбеддинги разных модальностей одного и того же ролика сближаются между собой, а несвязанный контент, наоборот, разводится. За счёт этого модель учится выстраивать прочные смысловые связи между сигналами разной природы»
— продолжает эксперт

Что это даёт пользователю 

Мультимодальная контентная модель позволяет рекомендательной системе работать со смыслами и быстро предлагать свежий, релевантный контент. Объединяя визуальные, текстовые и аудиосигналы, модель понимает, о чём материал, сразу после загрузки и до того, как его посмотрят и оценят первые зрители.

Мультимодальные модели также делают возможным поиск по примеру или даже настроению. Пользователь может загрузить фотографию и найти видео с похожей визуальной стилистикой, подобрать ролики с похожим саундтреком по аудио или найти контент со схожим сюжетом по текстовому описанию. Такой сценарий позволяет искать не словами, а ассоциациями через изображение, звук или смысл.

Ещё новый подход ускоряет выявление нежелательного контента, например, ролики с нейтральным визуалом, но ненормативной лексикой, или изображения с текстом, нарушающим правила платформы.

Наконец, открывается путь к кросс-форматным рекомендациям. Унифицированное числовое представление контента упрощает его сопоставление на разных площадках и построение единой системы рекомендаций. Для пользователя это выглядит примерно так: лайкнул лонгрид про путешествия во «ВКонтакте» — в рекомендациях «VK Клипов» появляется ролик с видами Алтая. Предпочтения, сформированные в одном сервисе, начинают работать в других.

Мультимодальное будущее

В перспективе рекомендации станут интерпретируемыми: вместо «Вам может понравиться» пользователь увидит объяснение — «Рекомендуем это, потому что вы оценили сцену с горами в прошлом ролике».

А ещё мультимодальные модели смогут не только подбирать существующий контент, но и генерировать свой: например, создавать коллажи из кадров любимых авторов, формировать плейлисты под контекст пользователя (время суток, местоположение, погоду) или генерировать краткие саммари. Похожие функции уже появляются на отдельных платформах и становятся новым уровнем персонализации.

«Пока потенциал мультимодальных моделей не используется на все 100%. Но уже сейчас понятно, что чем лучше мы понимаем тонкие смыслы контента и интент пользователя ‒ тем лучше становятся рекомендации. В ближайшие годы такие модели перейдут от роли “умного фильтра” к роли персонального ассистента, который сможет не только находить, подбирать, но и объяснять рекомендации»
— подытоживает Илья Алтухов