2015-06-26 11:01:08
Современный мир предлагает человеку множество товаров, услуг и развлечений. Богатый выбор — это ...
+ развернуть текстсохранённая копия
Современный мир предлагает человеку множество товаров, услуг и развлечений. Богатый выбор — это хорошо, но, когда ассортимент слишком широк, сложно остановиться на чём-то одном. На то, чтобы купить пылесос или даже просто выбрать фильм на вечер, уходит много времени и сил. Приходится читать отзывы, сравнивать описания и характеристики или спрашивать совета у друзей. Поэтому становится необходимой возможность не просто найти нужный объект — например, фильм, товар или музыкальный трек, — а быстро и просто выбрать из миллионов похожих объектов подходящий.
Чтобы сделать выбор и принять решение было проще, придуманы системы персональных рекомендаций. Их задача — сузить предложение до вариантов, которые с наибольшей вероятностью подойдут конкретному человеку. В основе подобных систем лежат сложные рекомендательные технологии. В Яндексе для таких случаев разработана технология Диско. Она используется в сервисах с крупными каталогами объектов — в Музыке, Радио, Маркете и Видео.
Название технологии было выбрано в честь музыкального жанра диско. Треки в этом жанре можно послушать на Яндекс.Музыке. Именно на этом сервисе Яндекса впервые появились рекомендации — это произошло в сентябре 2014 года. Кроме того, слово «диско» созвучно английскому слову discovery, которое означает «открытие нового» и хорошо отписывает суть технологии.
Выявление предпочтений
Прежде чем что-либо советовать человеку, стоит уточнить его вкусы и предпочтения. Узнать о них Диско может из нескольких источников. Во-первых, это поисковые запросы — они могут рассказать о текущих интересах. Во-вторых, это данные от технологии Крипта: пол, примерный возраст и род занятий. Они позволяют не рекомендовать человеку то, что ему заведомо не понравится. Скажем, 15-летней девочке, которая увлекается аквааэробикой, не стоит советовать музыку в жанре шансон. Наконец, это сведения от сервиса, для которого составляются рекомендации. Например, в Маркете это информация о том, какие товары просматривал человек, а в Музыке и Радио — какие треки он слушал. Само собой, все данные обезличены.
Сигналы о предпочтениях пользователя могут быть положительными и отрицательными. Например, в Яндекс.Радио и Яндекс.Музыке композиции, которые пришлись не по душе, можно пропускать или отмечать оценкой «не нравится». Это отрицательный сигнал — он говорит о том, что в дальнейшем человеку такую музыку рекомендовать не надо. Кроме того, сигналы могут отличаться по весу. И оценка «мне нравится», и факт прослушивания трека от начала до конца являются положительными сигналами, но у первого вес будет больше.
Составление рекомендаций
Составляя рекомендации, Диско использует три разных подхода. Первый подход опирается на информацию об объектах и связях между ними. Например, про любой музыкальный трек известно, на каком альбоме он вышел, кто его исполняет и к какому жанру он относится, а про любой товар — кто его производитель, каковы его характеристики и к какой категории товаров он принадлежит. Проанализировав связи, можно посоветовать пользователю объекты, родственные тому, чем он уже интересовался. Скажем, если человек часто слушает прогрессивный рок, ему можно предложить другие треки этого жанра, а если человек купил плиту и холодильник одного и того же производителя, а сейчас подбирает микроволновку, его, скорее всего, заинтересуют модели, выпущенные этой же компанией.
В основе второго подхода лежит информация о связях между людьми. Благодаря Крипте известны пол, примерный возраст и предположительный род занятий каждого пользователя. Установлено, что людей, у которых эти характеристики совпадают, часто интересуют одни и те же объекты. Даже если человек пользуется сервисом впервые и ещё не успел ничего посмотреть, послушать или приобрести, можно проверить, что смотрят, слушают или покупают люди со схожими характеристиками — и предложить ему эти же объекты.
Третий подход использует данные о взаимодействиях пользователей с объектами. Взаимодействием можно считать, например, факт просмотра видеоролика или оценку «нравится», поставленную музыкальному треку. Подход (в теории рекомендательных систем он известен как SVD — singular value decomposition, или сингулярное разложение) позволяет, опираясь на уже известные взаимодействия, предсказать, как пользователи отреагируют на те или иные объекты — например, какую оценку они поставят фильму, который пока не видели.
У каждого из подходов есть свои достоинства. Первый подход позволяет посоветовать человеку редкие объекты, которыми мало кто интересуется — например, малоизвестную музыкальную группу. Второй подход даёт возможность составлять рекомендации для людей, которые оказались на сервисе впервые и ещё не успели совершить никаких действий. Третий подход позволяет найти нетривиальные закономерности: скажем, может выясниться, что люди, которые интересуются надувными бассейнами и фитнес-трекерами, чаще других покупают кофеварки.
На этих трёх подходах основаны все рекомендательные модели, которые используются в Диско. Таких моделей насчитывается несколько сотен, и все они работают по-разному: одна составляет рекомендации с учётом музыкального жанра, вторая — с учётом бренда товаров, и так далее. Каждая модель на вход принимает набор параметров, а на выходе выдаёт список рекомендаций.
Обработка рекомендаций
Все рекомендации от различных моделей обрабатывает метод машинного обучения Матрикснет. Его задача — составить сочетание рекомендаций, которое бы идеально соответствовало интересам пользователя в данный момент.
Решая эту задачу, Матрикснет учитывает множество факторов. Например, фактор разнообразия — людям, у которых в плейлистах соседствуют треки разных жанров и исполнителей, стоит советовать более разнообразную музыку, чем тем, кто привык включать альбом и слушать его от начала до конца. Или фактор популярности — кто-то предпочитает слушать музыку, которую часто крутят радиостанции, а кто-то любит редкие треки, которые известны только узкому кругу меломанов.
Результат работы Матрикснета — финальный список рекомендаций. Его пользователь и видит на сервисе — например, на главной странице Яндекс.Музыки или в разделе «Популярные товары» на Яндекс.Маркете.
Вокруг происходит так много событий, что легко пропустить что-то интересное. Одних только концертов в Москве каждую неделю проходит несколько десятков. А ещё кино, выставки, спектакли, экскурсии, ярмарки, мастер-классы — множество разных мероприятий, которые могут быть вам интересны. Уследить за ними, а тем более всюду успеть — очень сложно. Мы хотим исправить это и запускаем новую Яндекс.Афишу — сервис выбора развлечений, с которым вы всегда будете в курсе того, что происходит вокруг.
Готовясь к запуску новой Афиши, мы выяснили, что люди посещают развлекательные мероприятия куда реже, чем им хотелось бы. Причины называют самые разные, в том числе: иногда забывают дату, иногда слишком поздно узнают о событии, а иногда поздно о нём вспоминают, и билетов уже нет. Новая Яндекс.Афиша устроена так, чтобы этих причин у вас стало меньше. Мы собираем информацию обо всех событиях и в нужный момент показываем вам наиболее подходящие. Летом это могут быть события на открытом воздухе, в конце недели — вечеринки на выходных или мероприятия, на которые можно сходить с детьми.
Важная часть новой Афиши — это персональные рекомендации. Например, сервис учитывает, каких исполнителей вы слушаете на Яндекс.Музыке, и, если кто-то из них приезжает с концертом, покажет вам информацию об этом в первую очередь. Чем больше вы будете пользоваться сервисом, тем точнее будут рекомендации. Когда мы накопим достаточно данных, включится рекомендательная система Диско, и Яндекс.Афиша станет вам как друг, который звонит и говорит: «Пойдем на новую выставку, тебе точно понравится!» При этом рекомендации никогда не заслоняют общей картины, потому что наша цель — сообщить обо всём, что происходит в вашем городе, и сделать так, чтобы вы могли узнать что-то новое. Сориентироваться в незнакомых событиях поможет дополнительная информация, которая объясняет, чем событие интересно. Например, если это новый фильм известного режиссёра, то Афиша покажет его имя или имя звезды, которая в нём сыграла.
Другая важная особенность, которую мы старались учесть в новой Афише, — это то, что люди по-разному хотят проводить свободное время в разных контекстах. После работы многим хочется расслабиться, а на выходные — найти что-то особенное. На сервисе есть тематические подборки, которые помогут выбрать то, что вам сейчас подходит, будь то мастер-класс по кулинарии или выставка современного искусства. Идея в том, что тот же мастер-класс вы, может, и не стали бы прицельно искать, а в подборке вроде «Бесплатные события на выходных» обратить на него внимание будет проще.
На главной странице сервиса вы можете узнать, куда сходить прямо сейчас и что интересного будет в ближайшее время. В первую очередь Афиша предлагает те события, которые популярны у пользователей Яндекса или освещаются в СМИ. Если о каком-то концерте много пишут, наши рекомендательные алгоритмы, опираясь на количество публикаций в Яндекс.Новостях, будут показывать его выше на главной странице сервиса и подскажут, что это событие популярно. На ранжирование влияют и другие факторы, такие как наличие билетов на мероприятие. Скажем, если недавно открылась продажа билетов на какой-то концерт, мы покажем его в первую очередь, чтобы вы успели купить билет. Сделать это можно прямо на сервисе: сейчас вы можете покупать билеты в кино и на концерты, а осенью мы планируем добавить ещё и билеты на театральные постановки.
Для того чтобы информация на Афише всегда была полной, мы собираем её из разных источников: от наших информационных партнёров, из социальных сетей и напрямую от организаторов. Дело в том, что организаторы рассказывают о своих мероприятих разными способами, и не все они универсальны. Например, то, что рекламируют по телевизору, не увидят те, кто его не смотрит; то, о чём сообщают в печатной прессе, тоже не всегда дойдёт до адресата. Мы постарались решить эту проблему и сделать Яндекс.Афишу местом, где вы можете узнать обо всём сразу.
Наша задача и задача новой Яндекс.Афиши — сделать так, чтобы люди больше посещали самые разные мероприятия, даже если они не всегда попадают в круг их интересов. Например, сходили на выставку, которая вряд ли привлекла бы их внимание, но которую так много обсуждают, что пропустить её просто нельзя. Потому что мы считаем, что развлечений много не бывает, дело за малым — выбрать. Ну а сделать это мы всегда поможем.
В марте мы анонсировали запуск Школы дизайна Яндекса — курса занятий, на которых мы будем знакомить дизайнеров с основами работы над массовыми веб-продуктами.
Мы получили 780 заявок, провели 74 интервью и выбрали 31 кандидата. (Как это было — отдельная большая история, и скоро мы её расскажем.) Одни из них — состоявшиеся профессионалы, у других, наоборот, совсем мало опыта. Треть участников проекта — москвичи, остальных мы привезли из 16 городов: от Калининграда до Иркутска. Младшему из прошедших отбор 16 лет, старшему — 34.
Сегодня Школа начинает работу — впереди два с половиной месяца интенсивных занятий с профессионалами из разных областей, домашних заданий и работы над личными проектами. Последнее, конечно, самое важное и сложное. Дизайнер продукта — это ключевая роль, и такой человек должен уметь многое. Мало любить придумывать концепции и хорошо делать макеты. Нужно уметь работать с информацией, строить гипотезы и проверять их, создавать рабочие прототипы — и при этом не терять из вида то «самое главное», ради чего продукт создаётся.
Наставниками в Школе будут не только дизайнеры и арт-директора. В проекте принимают участие менеджеры интерфейсов Поиска, специалисты по маркетинговым коммуникациям и многие другие. Мы сами разработали весь курс, и для нас Школа — это новый опыт и не меньший эксперимент, чем для участвующих в нём дизайнеров. Следить за его ходом можно будет в спецпроекте с Look At Me — там будут тексты о занятиях, интервью, видео с лекций и другие полезные материалы для тех, кому интересен дизайн массовых веб-сервисов.
А пока — несколько фотографий с первого дня Школы.
В четверг думский комитет по информационной политике обсуждал законопроект, который обязывает поисковые системы по заявлению гражданина и без решения суда удалять из поисковой выдачи ссылки на незаконную или недостоверную информацию, или даже на достоверную, если она касается событий трёхлетней давности. Поиск в интернете — наш основной сервис. Более чем за 15 лет существования в него было вложено колоссальное количество сил и средств. В первую очередь мы старались сделать поиск полным, полезным и независимым. Законопроект в текущей редакции существенно затруднит развитие поиска, построенного на таких принципах, или даже сделает его существование вовсе невозможным. Поэтому мы считаем необходимым прокомментировать законопроект — в том числе, публично.
По словам авторов законопроекта, предложенный механизм позволит любому человеку ограничить распространение в интернете недостоверной или неактуальной информации о себе. Само по себе это неплохо, принцип, предоставляющий людям такое право, основан на одном из важнейших прав человека — на тайну частной жизни, включая право контролировать распространение информации о себе. К сожалению, механизм, предложенный в законопроекте, не прекращает распространение информации в интернете и при этом противоречит базовым правовым принципам и действующему законодательству.
Вопросы вызывает, прежде всего, допустимость ограничения прав человека на поиск достоверной информации. Действующее законодательство не предполагает такой возможности. В Конституции РФ закреплено право свободно искать, получать, передавать, производить и распространять информацию любым законным способом (статья 29). Федеральный закон «Об информации, информационных технологиях и информатизации» также предусматривает право на поиск и получение любой информации в любых формах и из любых источников (статья 8). Этим, собственно, и занимается поисковая система: ищет по всем общедоступным источникам информации. Законопроект игнорирует право на поиск. Безусловно, существует возможность ограничения конституционных прав человека для достижения определенных целей, однако явно не тех, которые указаны в законопроекте.
В ограничениях, которые вводит законопроект, присутствует явный дисбаланс между частными и общественными интересами. Необходимость поиска и получения информации во многих случаях обоснована общественным интересом к деятельности лиц, которые играют важную роль в жизни человека или общества. Законопроект затруднит или сделает поиск важной и достоверной информации невозможным. Скажем, невозможным может оказаться найти информацию и отзывы о враче, к которому вы собираетесь пойти на приём, или о воспитательнице детского сада, в который вы собираетесь отдать своего ребёнка.
Кроме того, предлагаемый механизм открывает возможности для многочисленных злоупотреблений. От авторов жалобы не требуется никакого обоснования или подтверждения: достаточно одной жалобы. В результате из поисковой системы должны исчезнуть ссылки на неопределённый круг ресурсов, любых. Это очень удобно для достижения самых разных целей, например, чтобы скрыть информацию о мошеннических схемах или затруднить работу конкурентам.
Но даже если представить себе, что можно ограничить людей в поиске достоверной информации наравне с незаконной или недостоверной, возникает второй вопрос: кто должен исследовать информацию, выяснять, насколько она законна, достоверна или актуальна, относится ли к конкретному лицу, и принимать итоговое решение? Законопроект предлагает закрепить эту функцию за поисковиками, передав функции судов или правоприменительных органов отдельно взятым коммерческим организациям. Если поисковая система откажется от этой роли, ей грозят постоянные штрафы или судебные разбирательства.
Помимо этого, законопроект не учитывает технические особенности распространения информации в интернете и принципы работы поисковых систем. Он позволяет любому гражданину потребовать от поисковой системы прекратить выдавать ссылки на ресурсы с определённой информацией. При этом указывать сами ссылки вовсе необязательно. В требовании человеку достаточно просто привести информацию, ссылки на которую нужно убрать из выдачи. То есть речь идёт даже не о том, чтобы убрать тот или иной ресурс из поисковой выдачи, а о том, чтобы поисковая система вообще перестала находить некую информацию, размещённую в любом месте интернета, по любому поисковому запросу. Для этого надо сначала найти все страницы, которые могут появиться в поисковой выдаче на любом месте по всем запросам, какие только могут прийти в голову человеку. Это уже требует бесконечного времени. Потом нужно проверить, насколько найденные документы соответствуют тому, что написано в требовании — та там информация или какая-нибудь другая, и провести расследование, чтобы установить, действительно ли она недостоверна или старше трёх лет. Очевидно, что поисковая система всего этого сделать не может.
У законопроекта ещё множество недостатков, однако вряд ли имеет смысл говорить о них в ситуации, когда сам предлагаемый механизм противоречит закону и технически нереализуем.
Законопроект обычно связывают с решением Суда Европейского союза в деле Google Spain против AEPD, González (C-131/12 ). Это решение много критикуют, и при этом обсуждаемый российской думой законопроект проработан гораздо хуже.
Европейский суд обязал поисковые системы удалять конкретные ссылки на определенную информацию по узкому классу запросов. При этом к каждому случаю удаления ссылки из результатов поиска поисковые сервисы обязаны подходить внимательно, чтобы не ограничить возможность поиска важной информации и не нарушить баланс частного и публичного интересов.
Заключение Яндекса на предлагаемый законопроект можно прочесть здесь.