Какой рейтинг вас больше интересует?
|
Как устроены Яндекс.Новости2014-02-20 14:19:34 (читать в оригинале)Яндекс.Новости — крупнейший в рунете агрегатор новостных сообщений. Каждый день этот сервис получает материалы от нескольких тысяч СМИ и автоматически формирует из них новостную картину дня. Это очень сложная задача: нужно структурировать огромное количество информации, выделить самое важное и предоставить результат читателям в понятном виде. Нас часто спрашивают, как работают Яндекс.Новости, и в этой публикации мы постараемся ответить на ваши вопросы. А если что-то забудем — спрашивайте в комментариях.
технологии извлечения фактов. Затем он сравнивает выделенное и группирует сообщения по сюжетам. После того как сообщения сюжета отобраны, их необходимо отранжировать, и это самый интересный этап работы. Даже человеку сложно решить, какая из десятков, а иногда и сотен новостей об одном и том же событии интереснее и полнее. Что говорить о компьютере. Чтобы формализовать этот выбор, робот Яндекс.Новостей рассчитывает «вес» сообщения на основе трёх критериев: • цитируемость (сколько ссылок на это сообщение в других сообщениях сюжета, без учёта ссылок в аффилированных СМИ и самоцитирования), • свежесть (время публикации сообщения по сравнению с другими источниками), • информативность (наполненность сообщения ключевыми фактами сюжета). Почему критерии именно такие? Мы ориентируемся на ожидания читателей: информация должна быть актуальной, полной и достоверной. Актуальность и полноту робот измерить может, а с достоверностью помогает цитируемость. Этот параметр сродни индексу цитирования в научном мире. Он говорит о том, насколько сообщениям этого СМИ доверяют другие издания. Из фрагментов трёх лучших по этим критериям сообщений формируется краткое описание сюжета (аннотация). Фрагменты сообщений в аннотации должны содержать основные факты: даты и числа, названия объектов и организаций, имена людей, часто цитируемые высказывания. Как правило, фрагменты подбираются таким образом, чтобы дополнять друг друга и дать читателю как можно более полную картину произошедшего. По тому же принципу выбирается заголовок сюжета. Прочитав его, вы должны сразу понять, о чём речь, поэтому он должен наиболее полно отражать актуальную фактическую сторону сюжета и не содержать лишних слов. Под аннотацией в сюжете расположены другие сообщения СМИ о событии. Из всех сообщений робот выбирает наиболее цитируемые и ранжирует их по свежести. Остальные новости в виде хронологической ленты можно увидеть по ссылке в конце списка новостей. Приблизительно каждые 20 минут в сюжет добавляются свежие новости. Кроме параметров самого сообщения при ранжировании учитывается ещё один фактор — вес источника, то есть СМИ, опубликовавшего новость. Он зависит от двух показателей. Это цитируемость — количество ссылок на источник в сообщениях других СМИ за последние два месяца — и оперативность — показатель того, насколько быстро источник реагирует на то или иное событие. Эти показатели автоматически пересчитываются раз в неделю. К примеру, на момент публикации этого текста первая двадцатка СМИ по весу выглядела так (в алфавитном порядке): Агентство спортивных новостей «Р-Спорт», «Ведомости», «Газета.Ru», «Известия», «Интерфакс», ИТАР-ТАСС, «Коммерсант», «Комсомольская правда», НТВ, ПРАЙМ, РБК, РИА Новости, «Росбалт», «Российская газета», «Спорт-Экспресс», телеканал «Дождь», «Чемпионат.com», «Эхо Москвы», Lenta.ru, REGNUM. Вес СМИ играет незначительную роль при ранжировании сообщений. Он помогает нам в другом — ранжировать сюжеты. Как внутри сюжетов выбираются основные сообщения, так и внутри Яндекс.Новостей выбираются основные сюжеты. Вес источника помогает роботу оценить важность события. Если о каком-то событии пишут многие СМИ с большим весом, оно с высокой вероятностью важнее того события, о котором пишут менее весомые издания. Из этих важных событий и складывается новостная картина дня. Как отбираются новости для главной страницы Яндекса? На главной странице Яндекса должны оказаться самые важные события — такие, которые попали на главные страницы авторитетных СМИ. Поэтому при выборе новостей для главной страницы учитывается много разных параметров: количество сообщений об этом событии, вес пишущих о нём источников, плотность потока сообщений в единицу времени, а также позиция новости на сайте источника. Таким образом, на главную страницу Яндекса с большей вероятностью попадут события, о которых много пишут и которые попали на главные страницы авторитетных СМИ. Почему в топе слишком много негативных новостей? Яндекс.Новости собирают и структурируют информацию автоматически, они являются зеркалом медиасреды. Другими словами, мы лишь отражаем то, о чём пишут СМИ. Почему в Яндекс.Новостях появляются опечатки? Мы не вмешиваемся в работу алгоритмов. Все сообщения наших партнёров попадают в Яндекс.Новости в том виде, в каком они были переданы. Мы не исправляем опечатки вручную, а информируем источник об ошибке. P.S. Если у вас есть вопросы о работе Яндекс.Новостей, задавайте их в комментариях. Кроме того, скоро мы проведём семинар на тему «Как работают Яндекс.Новости» для всех заинтересованных представителей СМИ. Отправляйте ваши заявки на news@support.yandex.ru, на ближайший семинар мы пригласим первых 70 записавшихся. Команда Яндекс.Новостей
|
Категория «Журналисты»
Взлеты Топ 5
Популярные за сутки
|
Загрузка...
взяты из открытых общедоступных источников и являются собственностью их авторов.