Поисковым системам известны десятки миллиардов веб-страниц. Эти страницы содержат самые разные данные: тексты, картинки, видеоролики, карты, ссылки на другие страницы. Когда вам нужно что-то отыскать в Сети, вы обращаетесь к поисковой системе, и она находит веб-страницы с нужной информацией, ориентируясь на ключевые слова из запроса.
Поисковики достаточно умны, чтобы понимать, на каком языке задан запрос; они умеют учитывать морфологию языка и подбирать словам из запроса синонимы. Однако в полной мере осознать, о чём именно идет речь на найденной веб-странице, машины не в состоянии.
Представьте, к примеру, сайт поликлиники с возможностью записи на приём к врачу через интернет. Среди всех страниц сайта поисковый робот без труда найдёт нужную — ту, где выполняется запись, — но дальше возникнут трудности. Человек легко догадается, что «Иванов», «Петров» и «Сидоров» — это фамилии врачей, «окулист», «невролог» и «терапевт» — их специализации, а «9:00», «9:30» и «10:00» — возможное время начала приёма. Компьютер же самостоятельно такие выводы сделать не может.
А если бы машина могла «читать» страницы так же, как это делает человек, она бы могла помочь в решении гораздо более сложных задач. Скажем, не просто «Записаться к врачу в поликлинику №2», а «Записаться к окулисту, о котором хорошо отзываются, в поликлинику не дальше чем в пяти километрах от моей работы, на 12-13 сентября, на утро, но не позже 11:00».
Впрочем, объяснить компьютеру, о чем идёт речь на веб-странице, вполне возможно. Для этого нужно дать ему подсказку.Такой подсказкой служит семантическая разметка или микроразметка. По сути, микроразметка — это отдельный язык с собственными словарём и синтаксисом, задача которого — помочь машинам (в частности, поисковым роботам) понять концепции, используемые людьми.
Микроразметка добавляется в HTML-код веб-страницы. В глазах человека размеченная и неразмеченная страницы выглядят абсолютно одинаково, но для поисковой системы разница очень велика.
Чтобы понять, как работает микроразметка, рассмотрим простую фразу: «У Петра есть сын Иван». Несмотря на простоту человек может сделать из неё множество выводов: Пётр — отец (а также родитель) Ивана, отчество Ивана — Петрович, Пётр и Иван — мужчины и родственники, Пётр старше Ивана. Все эти факты очевидны, поскольку нам их подсказывает жизненный опыт. У машины такого опыта нет, поэтому она может воспринимать фразу только в её текущей формулировке.
Это — та же самая фраза, но с микроразметкой. Теперь компьютер понимает, что Иван и Пётр — это имена людей, между которыми существует родственная связь (Иван — ребёнок, Пётр — родитель), и ему не составит труда отвечать на вопросы вида «Кто родитель Ивана?». Кроме того, если добавить в разметку уникальные идентификаторы (например, ссылки на страницы в соцсетях), машина сможет отличать конкретных Ивана и Петра от их тёзок.
Микроразметка используется не только в случаях, когда речь идёт о людях. Аналогичным образом можно разметить и музыку, и видеозаписи, и события, и товары, и многое другое.
Единого стандарта микроразметки пока нет. Существуют разные синтаксисы и разные словари. Например, социальные сети собирают данные о сайтах с помощью словаря Open Graph, разработанного в Facebook, а поисковики, включая Яндекс, чаще ориентируются на словарь Schema.org. Подробнее о том, как устроены словари и синтаксисы, можно прочитать в техноблоге Яндекса на «Хабрахабре».
В том или ином виде микроразметку используют около 30% веб-страниц, известных Яндексу. Отсутствие микроразметки не влияет ни на способность страницы попадать в результаты поиска, ни на её позицию в результатах поисковой выдачи. Однако в ряде случаев разметка способна значительно упростить жизнь — как сайтам, так и пользователям.
Сделать наглядный сниппет
Одно из главных достоинств микроразметки состоит в том, что она даёт поисковику возможность строить красивые «сниппеты» — короткие описания сайтов. Например, вы играете на гитаре и ищете в Яндексе [аккорды группа крови]. Если вебмастер сайта, публикующего аккорды, добавил к себе на ресурс семантическую разметку, то вы сможете просмотреть текст песни с аккордами прямо на странице с результатами поиска.
Узнать подробности
Партнёры Яндекс.Видео используют семантическую разметку для того, чтобы сообщить сервису подробности о своих видеозаписях: например, кто играет в том или ином фильме, когда он был снят, каков его жанр и для какой аудитории он предназначен. С помощью этой информации сервис может точней отвечать на запросы пользователей, которые ищут, например [кино с Джеки Чаном], [мультики для самых маленьких] или [комедии шестидесятых]. Аналогичным способом пополняются базы и некоторых других сервисов Яндекса – например, Справочника.
Дать возможность действовать
В новом интерфейсе Яндекса — Островах — у сайтов в поисковой выдаче появятся дополнительные интерактивные блоки. Такой блок позволит пользователю решить задачу, сформулированную в запросе: например, «выбрать автомобиль» или «пожаловаться на погнутые перила в подъезде». Подробнее об островах можно узнать здесь.
Некоторые блоки-«острова» показывают информацию, обновляющуюся в режиме реального времени. Например, в случае с интернет-магазинами вы можете выбрать параметры и увидеть список товаров, которые этим параметрам соответствуют, — и всё это прямо на странице с результатами поиска. Данные для построения такого «острова» сайты передают Яндексу с помощью семантической разметки.
Построить Веб 3.0
В 2001 году Тим Бернерс-Ли, автор концепции Всемирной паутины, предложил идею «семантического веба». Это своего рода надстройка над «обычным» вебом, цель которой — с помощью семантической разметки объяснить машинам, о чём идёт речь на любой странице в интернете. Обладая таким знанием, машины смогут решать куда более сложные задачи, чем сейчас, и лучше понимать людей. Правда, удастся ли воплотить эту идею в жизнь, пока никто не знает.
Наступила осень — отдохнувшие за лето школьники и студенты с новыми силами принялись поглощать знания. Мы в Яндексе тоже времени зря не теряли и подготовили несколько образовательных программ для всех, кто интересуется информационными технологиями. Курсов много, так что есть из чего выбрать.
В Москве
Малый ШАД Бесплатный лекторий, занятия в котором ведут преподаватели вузов, учёные и специалисты разных IT-компаний. Лекции посвящены информатике, математике, лингвистике и смежным областям знаний. Для кого: для старшеклассников, интересующихся информационными технологиями. Как поступить: никаких вступительных испытаний, нужно только вовремя зарегистрироваться. Когда: начало занятий — 13 сентября. Период обучения: до конца апреля 2015 года, занятия — каждую субботу.
Курсы информационных технологий Вечерние занятия по системному администрированию, управлению базами данных, сетевым технологиям и информационной безопасности. Для кого: для студентов и молодых специалистов. Как поступить: заполнить анкету и выполнить тестовые задания. Когда: приём тестовых заданий заканчивается 29 сентября. Период обучения: с 13 октября по 27 ноября, занятия — два-три раза в неделю.
Екатерина Войденко, руководитель группы эксплуатации спецпроектов Яндекса:
«На КИТе вкладываются в каждого человека, да и люди туда приходят сами, они настроены учиться и получать новые знания. Преподаватели чувствуют отдачу от студентов, студенты чувствуют отдачу от преподавателей, люди обмениваются знаниями, что-то обсуждают, делают задания и делятся разными методами решения. К тому же, ты общаешься с живыми людьми в Яндексе, понимаешь, что они такие же, как ты. Исчезает этот комплекс «там умные дядьки сидят, куда мне до них», если он есть. После КИТа я пришла в Яндекс на позицию младшего системного администратора внутренних сервисов, теперь руковожу эксплуатацией спецпроектов и занимаюсь медийными сервисами. Так что, будущим студентам совет: иногда стоит просто попробовать, чтобы узнать на что ты способен лично».
В Санкт-Петербурге
Школа автоматизации процессов разработки Вечерние курсы по автоматизации процессов разработки и тестирования ПО. Обучение состоит из лекций от сотрудников Яндекса и командной работы над проектами. Для кого: для студентов старших курсов и выпускников технических специальностей. Как поступить: заполнить анкету на сайте, решить тестовое задание и пройти собеседование. Когда: приём анкет прекращается 30 сентября. Период обучения: С 16 октября, программа рассчитана на два месяца.
В Екатеринбурге
Школа программирования Очно-заочные курсы, которые включают в себя практические занятия с разработчиками Яндекса и изучение алгоритмов, структур данных, языков программирования Python и C++, а также основ реляционных и нереляционных баз данных. Со второго семестра начинается командная работа над проектами. Для кого: для студентов старших курсов, магистров и недавних выпускников инженерных и математических специальностей. Как поступить: заполнить анкету на сайте, выполнить тестовое задание и пройти собеседование. Когда: приём тестовых заданий прекращается 15 сентября. Период обучения: один год (два семестра).
Школа разработки интерфейсов Очно-заочные курсы по фронтенд-разработке. Обучение состоит из цикла лекций и командной работы над проектом. Для кого: для студентов старших курсов и недавних выпускников. Как поступить: заполнить анкету и выполнить тестовое задание. Когда: приём тестовых заданий прекращается 20 октября. Период обучения: первое занятие — 9 ноября, программа рассчитана на два месяца.
Роман Парадеев, разработчик интерфейсов Яндекс.Маркета:
«О ШРИ я узнал из публикации на Хабрахабре или it-eburg, не помню точно. А поступать решил, когда увидел вступительную задачу. В целом, курс оказался достаточно базовым, самой полезной была возможность побеседовать с интересными людьми. Тогда же во время учёбы устроился в Яндекс. Будущим студентам я хочу сказать: никто за вас учиться не будет, даже в Яндексе».
В Минске
Школа разработки интерфейсов Курс по фронтенд-разработке. Включает в себя лекции и командную работа над проектами. Для кого: для студентов и начинающих специалистов. Как поступить: заполнить анкету и выполнить тестовое задание. Когда: приём тестовых заданий прекращается 28 сентября. Период обучения: первое занятие — 15 октября, программа рассчитана на два месяца.
Особенность информационных технологий состоит в том, что некоторые вещи, ещё вчера казавшиеся актуальными, уже сегодня могут оказаться безнадёжно устаревшими. Образовательные программы Яндекса дают возможность получить знания из первых рук от тех, кто создаёт передовые технологии. А для лучших студентов это ещё и шанс стать частью Яндекса.
Вчера на нескольких сайтах появилась информация про базу логинов и паролей на Яндексе – более миллиона записей. Мы проанализировали эту базу и совершенно уверены, что она получена не в результате взлома наших сервисов.
Вам не нужно искать этот список логинов и паролей и проверять, нет ли там вас. Всех пользователей, которые туда попали, мы уже оповестили и сбросили их пароли – теперь в эти ящики невозможно войти, не поменяв пароль. Просто попробуйте войти в вашу Яндекс.Почту. Если вам не предлагают поменять пароль – значит можно не беспокоиться.
Наши специалисты уверены, что база собиралась в течение долгого времени, а не в результате целенаправленной атаки. Злоумышленники получают доступ к учётным данным пользователей разными способами – с помощью фишинга (когда пользователи вводят свои данные на сайте-подделке), вирусов или кросс-чека (когда люди используют одинаковые пароли на разных ресурсах, взлом одного из них означает, что скомпрометированы все).
Среди паролей в списке есть такие, которые мы уже давно не разрешаем использовать при создании новой учётной записи (например, «qwerty»). О 85% аккаунтов из выложенной базы нам было известно и до этого – большинство из них появляются в подобных списках уже несколько лет. Для некоторых аккаунтов пароли уже были сброшены – но их владельцы так и не поменяли пароль и не зашли в свой почтовый ящик. Это означает, что эти ящики либо давно заброшены, либо созданы роботами.
Подробности о том, как мы храним пароли и почему считаем, что дело не во взломе сервиса, можно прочитать в нашем блоге на Хабре. Ну и на всякий случай: время от времени полезно менять пароль, даже без всяких причин.
На сервисе Яндекс.Перевод появились китайский и тайский языки. Теперь вы можете перевести описание товара в китайском интернет-магазине на русский или изучить историю достопримечательностей Таиланда на местных сайтах, если собираетесь в путешествие и решили вооружиться информацией до зубов. В мобильном приложении Яндекс.Перевод для iOS китайский и тайский языки уже доступны, скоро появятся и в приложении для Android.
Команда Яндекс.Перевода регулярно получает от пользователей просьбы о добавлении новых языков, и китайский был одним из тех, о которых просили больше всего. На Яндекс.Переводе уже есть азиатские языки – в апреле появились вьетнамский, индонезийский и малайский. Дальше корпус азиатских языков будет ещё пополняться.
Всего Яндекс.Перевод знает уже 44 языка, и у каждого свои «трудности перевода», которые приходится учитывать разработчикам сервиса. В китайском, например, нет пробелов, и сочетание иероглифов 松鼠 может быть как одним словом, «белка», так и двумя отдельными словами — «сосна» и «мышь». Значит, прежде чем переводить текст с китайского, его нужно сначала правильно разбить на слова. Здесь могла бы помочь морфология, например окончания, но их в китайском языке тоже нет. На помощь приходит статистика — анализируя тексты, машина составляет представление о сочетаемости иероглифов и использует эти знания в переводе.
Статистический подход используется не только при работе с китайским — технология статистического машинного перевода лежит в основе работы всего сервиса Яндекс.Перевод. Специальный алгоритм обрабатывает огромное количество текстов на разных языках и определяет, какие пары слов и фраз лучше всего соответствуют друг другу. Больше об этой технологии вы можете прочесть здесь.
Пять дней в неделю утром на работу, в обед бизнес-ланч, вечером в пятницу за продуктами, а потом иногда в бар, в субботу — кино, торговый центр или салон красоты, ну а после, может быть, ночной клуб. И в понедельник вечером — в спортзал, чтобы восстановить силы. И так изо дня в день. По крайней мере такая была гипотеза у нашего аналитика геоинформационных сервисов. Чтобы проверить её, он посмотрел, как запросы пользователей мобильных Яндекс.Карт и Навигатора распределяются по дням недели.
И, да, всё так и вышло.
Продуктами закупаются в пятницу и выходные:
Цветы ищут вечером, особенно по пятницам и субботам:
А вот банки нужны всё время:
С понедельника — новая жизнь, а вот в пятницу вечером на фитнес ходят мало:
Потому что в пятницу вечером старую жизнь провожают в барах и пабах:
В ресторанах и кафе в будни чётко видны обед и ужин, а вот в выходные бизнес-ланчи не подают:
В выходные других дел хватает. Заехать в автосервис:
Сходить в кино:
Или в салон красоты, чтобы подготовиться к началу новой недели:
По данным мобильных Яндекс.Карт и Навигатора, март-июль 2014 (без учёта праздничных дней)