Гибридные новостные рекомендаторы

Одной из главных задач, возникающих при подборе рекомендательных методов для того или иного ресурса, является достижение максимально возможной удовлетворенности пользователя предоставляемыми рекомендациями. Она может измеряться различными способами, но все они покажут наилучшие значения в тех случаях, когда пользователи совершают большое количество переходов по рекомендуемым материалам, долго остаются на страницах площадки, изучая предоставленный контент.

Математически проблема состоит в нахождении решения задачи оптимизации некоего функционала от переменных-алгоритмов, значение которого показывает качество выбранной комбинации. К глубокому сожалению всех, кто решает подобные задачи, этот функционал не аддитивен (и, отметим для искушенных читателей, даже не линеен по своим аргументам): качество комбинации алгоритмов невозможно оценить в виде суммы качеств элементов комбинации (пусть даже с некоторыми коэффициентами). Как же найти хотя бы примерный вид этого функционала? Перечисленные ограничения заставляют исследователей искать разные подходы к решению, среди которых наиболее распространены эмпирические или опирающиеся на эмпирику.  Скажем, можно измерить “эффективность” каждого имеющегося в наличии рекомендательного метода, а также нескольких их комбинаций, а затем на основании полученных данных аппроксимировать функционал качества какой-нибудь функцией (как правило, полиномом от нескольких переменных) подобрав коэффициенты с помощью метода наименьших квадратов.

Переходя от теории к практике, остановим свое внимание на новостных сайтах, где рекомендательная система (а чаще ее разработчики) сталкивается с дилеммой: какой контент лучше предоставить в рекомендательном виджете? Выдаваемый классическим персонализированным рекомендатором, делающим упор на предпочтения каждого конкретного пользователя? Но важно учесть и специфику новостных сайтов: показывать свежие, читаемые, актуальные новости. Никакой коллаборативный или подобный ему метод (с известными проблемами холодных стартов) не предоставит хороший контент такого рода в кратчайший срок: пока копится информация, новость уже перестанет быть актуальной. Здесь на первый план выходит определение популярности, мгновенной читаемости статьи.

В исследовании Nirmal Jonnalagedda, Susan Gauch, Kevin Labille, Sultan Alfarhood (2016) приводится описание нескольких классов рекомендательных систем, приспособленных специально для предоставления новостных рекомендаций. Авторы предлагают новый гибридный рекомендатор. Он призван достигнуть сразу обе цели: с одной стороны, персонализированности выдаваемого контента, и с другой — его актуальности. Предлагаемый рекомендатор является агрегацией двух более простых — первого, основанного на популярности новостей, и второго, использующего информацию о профиле предпочтений пользователя.

recommended stories

Для рекомендатора на основе популярности авторы предлагают необычное решение, схема которого показана на рисунке. С одной стороны, для получения новостей система загружает RSS-ленты сразу нескольких новостных сайтов. С другой, система скачивает твиты. Все текстовые данные проходят процедуру анализа. Чтобы определить популярность новостей, система сопоставляет твиты с новостными материалами — таким образом авторы оценивают “истинную” популярность, а не определяемую содержанием конкретного ресурса. Из примененных технических средств авторы отмечают Lucene и SOLR.

SOLRРекомендатор на основе профиля пользователя реализован более классическим образом. С помощью специальной системы конструируются профили пользователей — на основе их истории предпочтений. Персональные рекомендации авторы предлагают получать путем сопоставления индивидуальных предпочтений и новостных статей с помощью специального алгоритма.

user profiles

Гибридный рекомендатор, в свою очередь, подготавливает финальный блок рекомендательных материалов, используя весовое взвешивание статей, предоставленных описанными выше алгоритмами. В статье авторы приводят несколько примеров реальной работы своей системы, сопровождая повествование таблицами с численными данными (веса материалов на различных этапах работы системы и т.д.), а также результаты экспериментальной апробации.

Подобные решения, предназначенные для конкретных площадок и учитывающие их специфику, серьезно опережают по качеству более универсальные системы.

При написании статьи использованы материалы исследований компании Natimatica, а также работа https://peerj.com/articles/cs-63/

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *