Как проектировать систему рекомендаций или подбора контента с учётом пользовательских предпочтений?

Question

Обычно система рекомендаций делится на этапы: сбор событий, построение профиля пользователя, генерация кандидатов и ранжирование. Тяжёлая аналитика и обучение/подбор параметров выполняются оффлайн, а в онлайне сервис быстро берёт готовых кандидатов и сортирует их по простым признакам. Важно продумать хранение событий и агрегаций (часто аналитическое хранилище), а также кеш и предрасчёт, чтобы уложиться в latency. Ещё нужны правила “холодного старта”, фильтры (блок-листы, категории) и измерение качества через A/B тесты.

YeaHub · Accepted Answer

Базовая схема рекомендацийСистема рекомендаций — это не один алгоритм, а конвейер, где большая часть работы делается заранее.1) Сбор данных и событийная модельСначала определяем, какие события собираем:просмотр, клик, лайк, покупка, добавление в избранноевремя просмотра/досмотра, скролл, скрытие контентаконтекст: устройство, регион, время, источникПрактика:события пишутся асинхронно (не тормозим пользовательский запрос)события должны иметь стабильную схему и версию2) Профиль пользователя и признакиОпределение: Feature (признак) — числовое/категориальное представление поведения или свойств пользователя/контента, которое помогает ранжировать.Примеры признаков:топ категорий пользователя за 7/30 днейсвежесть интереса (что было недавно)негативные сигналы (скрытия/дизлайки)популярность контента в регионе3) Генерация кандидатов (candidate generation)Цель — быстро собрать “небольшой список” того, что потенциально можно показать.Типовые источники кандидатов:популярное (global/regional)похожее на просмотренное (item-to-item)по подпискам/соц-графу (если есть)тематические подборки/редакционные правилаКандидаты часто предрасчитываются и хранятся как списки id.4) Ранжирование (ranking) и бизнес-правилаДальше кандидаты сортируются:простая формула/модель (на старте)позже — ML-модель (если есть ресурсы и данные)Поверх ранжирования почти всегда накладываются правила:разнообразие (diversity), чтобы не показывать одно и то жефильтры: блок-листы, возрастные ограничения, категорииограничения повторов (frequency capping)5) Online-архитектура под latencyЧтобы отвечать быстро:хранить готовые списки кандидатов (например, по сегментам/пользователям)хранить профиль пользователя в быстром доступе (кеш/быстрое KV)обновлять агрегации асинхронноClickHouse обычно используется для:хранения событий и быстрых агрегаций по большим объёмампостроения витрин/срезов для предрасчёта кандидатов и признаков6) Холодный старт и деградацияЕсли о пользователе мало данных:популярное в регионеподборки по контексту (время суток, устройство)лёгкая онбординг-анкета (категории интересов)Если часть системы недоступна:fallback на популярное/редакционноеstale-данные (последний успешный список)7) Измерение качестваБез метрик рекомендации “на глаз” не строят.онлайн метрики: CTR, конверсия, время просмотраguardrail метрики: жалобы, скрытия, отпискиA/B тесты для сравнения стратегийВыводРекомендации проектируются как пайплайн: события → профиль/признаки → кандидаты → ранжирование + правила, где тяжёлое считается оффлайн, а онлайн быстро собирает ответ из предрасчитанных данных. Так проще уложиться в latency и управлять качеством через метрики и эксперименты.

Как проектировать систему рекомендаций или подбора контента с учётом пользовательских предпочтений?

Короткий ответ

Длинный ответ

Базовая схема рекомендаций

1) Сбор данных и событийная модель

2) Профиль пользователя и признаки

3) Генерация кандидатов (candidate generation)

4) Ранжирование (ranking) и бизнес-правила

5) Online-архитектура под latency

6) Холодный старт и деградация

7) Измерение качества

Вывод

Как проектировать систему рекомендаций или подбора контента с учётом пользовательских предпочтений?

Короткий ответ

Длинный ответ

Базовая схема рекомендаций

1) Сбор данных и событийная модель

2) Профиль пользователя и признаки

3) Генерация кандидатов (candidate generation)

4) Ранжирование (ranking) и бизнес-правила

5) Online-архитектура под latency

6) Холодный старт и деградация

7) Измерение качества

Вывод