Одним из наиболее интересных исследований, представленных на главной международной конференции по рекомендательным системам ACM RecSys, была совместная работа ученых из США и Тайваня, посвященная новому методу предсказания CTR. Ежегодная конференция 10th ACM RecSys 2016 прошла в Бостоне (США) в сентябре 2016 года.
В настоящее время наиболее широко для получения моделей предсказания CTR используется подход, основанный на применении логистической регрессии: при этом строится уравнение оптимизации, включающее функцию потерь, и модель ищется в виде его решения. Простейшая функция потерь — линейная, которая легка в реализации, однако не учитывает множество «сложной» информации. Более продвинутые способы — применение полиномиальных функций потерь, а также факторизационных машин (factorization machines, FM), которые вводят в рассмотрение скрытые переменные.
Отдельного внимания, по мнению авторов, заслуживает вариант FM, названный «попарная тензорная факторизация» (pairwise interaction tensor factorization, PITF) и его модификация, предложенная на кубке по анализу данных ACM KDD командой Team Opera Solutions. Авторы называют этот метод «Field-aware factorization machine» (FFM). Они отмечают, что метод отлично подходит для решения задачи предсказания CTR и показывает прекрасные результаты. Классические FM используют ровно один скрытый вектор для каждого признака объяснения скрытой связи с другими, вне зависимости от принадлежности признаков к разным классам и их разной природы. Чтобы учесть эту зависимость, FFM для каждого признака вводит несколько скрытых векторов.
Несмотря на возросшую сложность, FFM допускает относительно эффективную программную реализацию, которую авторы описали в своей работе. Вычислительные эксперименты выявили значительное превосходство модели FFM на многих наборах данных, что дает основания для ее применения в коммерческих системах.
Литература
- Yuchin Juan, Yong Zhuang, Wei-Sheng Chin, Chih-Jen Lin Field-aware Factorization Machines for CTR Prediction.
- Материалы конференции ACM RecSys 2016