Ученые из Амстердамского университета добились рекордного ускорения обучения рекомендательных систем — почти в 60 раз. Это стало возможным благодаря использованию российского датасета Yambda, предоставленного Яндексом в открытый доступ в 2025 году. Об этом сообщила пресс-служба Яндекса.
Исследователи улучшили модель Seater, которая организует товары и контент в иерархический каталог, похожий на дерево папок. Это позволяет быстрее и точнее выдавать рекомендации. Однако подготовка такого каталога была медленной и занимала до 20% времени обучения. Ученые предложили два новых метода подготовки данных: один — максимально быстрый, другой — быстрый с последующей доработкой.
На Yambda быстрый метод сократил время подготовки данных с 82 минут до 83 секунд, сохранив качество рекомендаций. Комбинированный подход ускорил процесс в 15 раз и даже повысил точность рекомендаций. Эксперимент подтвердил лидерство Seater по сравнению с популярными системами SASRec, BERT4Rec и GRU4Rec на 13–17%.
Авторы эксперимента подчеркивают, что Yambda позволил доказать практическую применимость генеративных рекомендательных систем на больших каталогах. Весь код улучшенной модели Seater выложен в открытый доступ, что позволяет использовать и развивать предложенные улучшения в реальных продуктах. Yambda содержит почти 5 миллиардов обезличенных событий из «Яндекс Музыки» и является одним из крупнейших публичных наборов данных в мире.
