Какой рейтинг вас больше интересует?
|
Как писать файл robots.txt2012-03-31 12:49:00 (читать в оригинале)Файл robots.txt автоматически создается для каждого блога. Увидеть его можно по адресу http://адрес_блога/robots.txt.
В этом файле, предназначенном для облегчения работы поисковых систем, находится список страниц, которые поисковику индексировать не надо. По умолчанию же стоит разрешение на сканирование всех страниц блога. Из-за этого, как я уже писала в посте о дублировании страниц, возникают повторы - страницы с одинаковым содержанием, но с разными адресами: из архива, из списка ярлыков, популярных сообщений и проч. Также в нем можно запретить сканировать и страницу блога с содержанием, которое является внутренним и не должно попасть в поисковик. Чтобы это сделать, надо поправить файл robots.txt. Доступ к нему возможен из панели управления на Блоггере: "Настройки" - "Настройки поиска" - "Поисковые роботы и индексация" - "Пользовательский файл robots.txt". Вот как выглядит этот файл по-умолчанию: User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS). Allow: / означает, что все содержание блога открыто для сканирования поисковой системой. На сайте "Шпаргалка блогера" http://shpargalkablog.ru/2010/07/kontent.html советуют закрыть блог для сканирования, а отдельно выписать страницы, сканировать которые нужно: User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: / (не разрешает сканировать блог) Allow: /*.html$ # (разрешает сканировать статичные страницы) Allow: /$ # (разрешает сканировать Главную страницу) Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (карта сайта берется из RSS) Другой вариант (взято из блога Seo Блогспот): перечисляет все страницы, сканировать которые не нужно: User-agent: Mediapartners-Google Disallow: /search/ Disallow: /search/label/ (запрещает сканировать ярлыки) Disallow: /*archive.html (запрещает сканировать архив) Allow: / Disallow: /search/ Disallow: /search/label/ Disallow: /*archive.html Allow: / Надо заметить, что по некоторым данным, файл robots.txt является рекомендательным, но не строго обязательным для поисковика. И иногда страницы, запрещенные в нем, все же попадают в индексацию. Поэтому изредка надо просматривать список проиндексированных страниц, напр., в "Гугл. Инструменты для веб-мастеров" (об этом сервисе я писала раньше), и удалять там дублирующиеся страницы вручную.
|
Категория «Журналисты»
Взлеты Топ 5
Популярные за сутки
|
Загрузка...
BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.
взяты из открытых общедоступных источников и являются собственностью их авторов.