Сегодня 30 ноября, суббота ГлавнаяНовостиО проектеЛичный кабинетПомощьКонтакты Сделать стартовойКарта сайтаНаписать администрации
Поиск по сайту
 
Ваше мнение
Какой рейтинг вас больше интересует?
 
 
 
 
 
Проголосовало: 7276
Кнопка
BlogRider.ru - Каталог блогов Рунета
получить код
Блог ради блога
Блог ради блога
Голосов: 1
Адрес блога: http://blogformyblog.blogspot.com/
Добавлен: 2012-05-27 18:54:59
 

Как писать файл robots.txt

2012-03-31 12:49:00 (читать в оригинале)

Файл  robots.txt автоматически создается для каждого блога. Увидеть его можно по адресу  http://адрес_блога/robots.txt.
файл robots.txt
В этом файле, предназначенном для облегчения работы поисковых систем, находится список страниц, которые поисковику индексировать не надо. По умолчанию же стоит разрешение на сканирование всех страниц блога. Из-за этого, как я уже писала в посте о дублировании страниц, возникают повторы - страницы с одинаковым содержанием, но с разными адресами: из архива, из списка ярлыков, популярных сообщений и проч.
Также в нем можно запретить сканировать и страницу блога с содержанием, которое является внутренним и не должно попасть в поисковик.

Чтобы это сделать, надо поправить файл  robots.txt.
Доступ к нему возможен из панели управления на Блоггере:  "Настройки" - "Настройки поиска" - "Поисковые роботы и индексация" -  "Пользовательский файл robots.txt".

Вот как выглядит этот файл по-умолчанию:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS).
Allow: / означает, что все содержание блога открыто для сканирования поисковой системой.

На сайте "Шпаргалка блогера" http://shpargalkablog.ru/2010/07/kontent.html советуют закрыть блог для сканирования, а отдельно выписать страницы, сканировать которые нужно:

User-agent: Mediapartners-Google
Disallow:
User-agent: * 
Disallow: /                (не разрешает сканировать блог)
Allow: /*.html$ #      (разрешает сканировать статичные страницы)
Allow: /$ #               (разрешает сканировать Главную страницу)
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated  (карта сайта берется из RSS)

Другой вариант (взято из блога Seo Блогспот):
перечисляет все страницы, сканировать которые не нужно:


User-agent: Mediapartners-Google
Disallow: /search/
 Disallow: /search/label/        (запрещает сканировать ярлыки)
 Disallow: /*archive.html      (запрещает сканировать архив)
 Allow: /
 Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated
 User-agent: Yandex       (почему-то прописано для Яндекса отдельно)
 Disallow: /search/
 Disallow: /search/label/
 Disallow: /*archive.html
 Allow: /

Надо заметить, что по некоторым данным, файл  robots.txt является рекомендательным, но не строго обязательным для поисковика. И иногда страницы, запрещенные в нем, все же попадают в индексацию. Поэтому изредка надо просматривать список проиндексированных страниц, напр., в "Гугл. Инструменты для веб-мастеров" (об этом сервисе я писала раньше), и удалять там дублирующиеся страницы вручную.

Тэги: blogger, blogspot, оптимизация

 


Самый-самый блог
Блогер ЖЖ все стерпит
ЖЖ все стерпит
по количеству голосов (152) в категории «Истории»
Изменения рейтинга
Категория «Журналисты»
Взлеты Топ 5


Загрузка...Загрузка...
BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.