Здравствуте дорогие мои читатели и все, кто заскочил на огонек. Сегодня у нас важный урок, будем разбираться, что же это за файл такой robots.txt, который настоятельно советуют создать для улучшения индексирования нашего ресурса. Прочитав массу информации, я хочу поделиться с Вами своими соображениями в создании этого файла. Начну с того, что файл robots.txt необходимо создать, если на Вашем сайте или блоге присутствует содержание, индексирование которого Вы хотите запретить. Но если Вы хотите, чтобы всё содержание блога попало в индекс поисковых систем, создание такого файла вовсе не требуется. На блогах Blogspot уже автоматически создан такой файл и выглядит он вот так:
Посмотреть файл robots.txt Вашего блога можно в инструментах для вебмастеров-сканирование-заблокированные URL. Но многие владельцы сайтов хотят запретить, к примеру, индексировать архив., чтобы не было дублированного контента. В таком случае файл robots.txt будет выглядеть так: Этот файл я создала сама, хоть и архив у меня пока удален.
User-agent: *
Disallow: /search
Disallow: /*archive
Allow: /
User-agent: Yandex
Disallow: /search
Disallow: /*archive
Allow: /
User-agent: Mail.Ru
Disallow: /search
Disallow: /*archive
Allow: /
Sitemap:http://www.bdblogov.ru/atom.xml?redirect=false&start-index=1&max-results=500
Можно создать для всех роботов сразу
User-agent: *
Disallow: /search
Disallow: /*archive
Allow: /Что интересно, Яндекс скушал этот файл, а в другом блоге horizon-s.blogspot.com не принял. Причина, как я полагаю в домене, этот блог на персональном домене ru.
В строке Disallow перечисляются страницы, которые необходимо заблокировать. В примере у меня заблокирован архив. Можно указать адрес URL страницы. Ввод должен начинаться с косой черты / .
Чтобы заблокировать весь сайт - Disallow:/
Чтобы заблокировать архив или определенную страницу -
Disallow:/archive/
Disallow:/ URL страницы
Чтобы удалить из индекса все изображения
User-agent: Googlebot-image
Disallow:/
Чтобы заблокировать одну из картинок
User-agent: Googlebot-image
Disallow:/kartinki/ url адрес на картинку
Чтобы использовать файл robots, необходимо иметь доступ к корневому каталогу блога. Для блогов blogspot такого доступа мы не имеем, но есть возможность добавить файл в настройки-настройки поиска-пользовательский файл robots.txt, смотрите на скриншоте
Нажмите-изменить-использовать собственный файл robots.txt-нажать-да. В поле вставьте созданный Вами файл, нажмите-сохранить.
Так же разрешить или запретить индексацию определенных страниц, видео, изображений можно, если воспользоваться мета тэгом robots и вставить его в тело шаблона, дизайн-изменить шаблон, в разделе <head></head>
Примеры мета тэгов:
Чтобы запретить индексирование всего содержания блога, есть же люди, которые ведут блог только для себя, применяют такой мета тэг
<meta name="robots"content="noindex"/>-это для всех роботов
<meta name="googlebot"content="noindex"/>-это для робота Google-Googlebot
Для всех без исключения роботов мета тэг выглядит так
<meta name="robots"content="index,follow"/>-разрешается индексировать страницы и ссылки;
<meta name="robots" content="nofollow"/>-не разрешается индексировать ссылки;
.
Здесь следует учесть, что если Вы внесли какие-либо изменения, файл robots должен быть обновлен. Даже после того, как робот обнаружит изменения, сканирование и индексирование-это сложный и длительный процесс, и может занять определенное время. Подробнее читайте на сайте Google. создание файла robots.txt вручную.
Теперь поговорим о роботе Яндекса. В Яндексе несколько видов роботов, которые выполняют разные функции. Есть робот, индексирующий только rss ленту, робот, индексирующий только картинки. Самый важный, основной робот,функция которого-поиск и индексирование информации-для формирования базы основного поиска. В помощь основному, есть быстрый робот-предназначен для оперативного индексирования свежей информации. Поэтому, если среди приндексированных страниц в Яндексе увидите похожие, это может означать только одно-страница проиндексирована и основным и быстрым роботом. Читайте о роботах Яндекса на этом сайте. Вернемся к мета тэгам. Для Яндекса также можно прописать мета тэги., только используя тэг nofollow
Смотрите примеры
<meta name="robots"content="all"/>-разрешить индексировать текст и ссылки на странице -
аналогично <meta name="robots"content="index,follow"/>
<meta name="robots" content="nofollow"/>-не переходить по ссылкам на странице
Для запрета индексирования какого-то определенного участка текста можно использовать тэг <noindex>.Работает как мета тэг noindex, но распространяется только на контент.
<noindex>запрещенный для индексирования текст</noindex>
Этот тэг может находится в любом месте html кода страницы. Об использовании Мета тэгов для Яндекса переходим на этот сайт. В этих приведенных примерах файла robots.txt, Вы можете разрешить или запретить индексирование для опреденных роботов. Вместо robots вписываете yandex-робот Яндекса, googlebot-робот Google, mail.ru-робот Mail.ru и другие. На этом моя информация заканчивается. Надеюсь будет Вам полезна. Всего доброго.