robots.txt – текстовый файл, расположенный в корне сайта, содержащий специальные инструкции для поисковых роботов, служит для запрета от индексации дублей страниц, админки, страниц регистрации пользователлей, ссылок на печать и т.п.
Создание файла robots.txt
Для создания используйте любой текстовый редактор, в нем создаем пустой файл с именем robots.txt. Открываем созданный файл и вписываем в него инструкции:
User-agent: *
Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /404
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index.php?
Disallow: /index.html
Disallow: /index2.php
Disallow: /index.php
Disallow: /*pop=
Disallow: /*task=vote
Disallow: /*=watermark
Disallow: /*=download
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
Host: ВАШ_САЙТ
Sitemap: http://BAШ-сайт/index.php?option=com_xmap&view=xml&tmpl=component&id=1
Сохраняемся и загружаем файл в корневой каталог сайта.
Описание параметров файла robots.txt
Разрешаем обращатся любым роботам (вместо * можно указать имя конкретного поискового робота например Yandex).
User-agent: *
Разрешает доступ к карте сайта для индексирования.
Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Запрещает индексацию директорий CMS Joomla - панели управления, компонентов, модулей, плагинов, временных файлов, логов, шаблонов и т.п, оставляем открытой для индексирования только папку /images/ для индексирования изображений на Вашем сайте.
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Запрещаем индексацию 404 ошибки.
Disallow: /404
Запрещаем индексацию всех ссылкок содержащих знаки ?, &.
Disallow: /*?
Disallow: /*&
Запрещаем индексацию кириллических ссылок.
Disallow: /*%
Закрываем от индексации дубли главной страницы (если у вас нет этих дублей то пропустите этот пункт).
Disallow: /index.php?
Disallow: /index.html
Disallow: /index2.php
Disallow: /index.php
Закрываем от индексации файлы pdf и swf.
Disallow: /*.pdf
Disallow: /*.swf
Закрываем от индексации ссылку на печать.
Disallow: /*print=1
Закрываем от индексации RSS.
Disallow: /*=atom
Disallow: /*=rss
Закрываем от индексации всплывающие окона.
Disallow: /*pop=
Закрываем от индексации ссылки на водяные знаки.
Disallow: /*=watermark
Закрываем от индексации ссылки на скачивание.
Disallow: /*=download
Закрываем от индексации облака тегов (если вы его используете).
Disallow: /*tag
Задаем главное зеркало вашего сайта.Поисковый робот индексирует сайты только по адресу главного зеркала т.е с www или без www.
Host: ВАШ_САЙТ
Задаем адрес карты сайта для Вашего сайта (пишем в одну строку).
Sitemap: http://BAШ-сайт/index.php?option=com_xmap&view=xml&tmpl=component&id=1
Примечание:
Если необходимо закрыть страницу от индексации (например /page), но при этом разрешить индексировать вложенные страницы (/page/links).
Disallow: /page$
Чтобы найти какие страницы попали в индекс введите в строку поиска в Яндексе: host:ВАШ-САЙТ или site:ВАШ-САЙТ , а в Google: site:ВАШ-САЙТ
Пример: site:admin-gu.ru