Как правильно создать robots.txt? Правила настройки и проверки robots.txt для новичков

Опубликовано:18.04.2013
Комментарии:
1 Комментарий
Рубрика:
Для начинающих
Просмотров: 10 014

Для чего нужен robots.txt, и где размещать этот файл – такие же важные вопросы, как и правильность его написания. Начну с того, для чего он нужен.

Файл robots.txt содержит перечень инструкций для роботов поисковых систем, которые разрешают, но чаще – запрещают роботам-паукам просматривать отдельные документы на сайте или целые разделы. Например, не просматривать страницы из архива или версии документов для печати.

Правильная настойка robots.txt позволяет:

Закрыть от индексации конфиденциальные документы на сайте;
Решить проблему дублей, закрыв их от роботов-пауков поисковых систем.

Если robots.txt отсутствует, то роботы поисковых систем будут просматривать любой документ сайта.

Сколько файлов robots.txt может быть на сайте?

Только один. Он должен располагаться в корневой директории сайта и быть доступен по адресу: http://Ваш_сайт.домен/robots.txt

Например, robots.txt поисковой системы Яндекс можно посмотреть по адресу: http://yandex.ru/robots.txt Аналог в исполнении Google: http://www.google.com/robots.txt

Имя файла должно быть в нижнем регистре (robots.txt, а не Robots.txt или ROBOTS.TXT)

Правила настройки файла robots.txt

Файл состоит из специальных команд для поисковых роботов – директив, рассмотрим их более подробно:

Директива User-agent используется для обращения к роботам, то есть в ней прописывается имя робота, для которого указываются команды ниже. Но директиву User-agent, адресованную конкретному роботу, нужно обязательно указывать до User-agent для всех роботов. Поэтому структура robots.txt будет выглядеть так:

User-agent: Yandex (основной робот Яндекса)

User-agent: Googlebot (основной робот Гугла)

User-agent: (имя любого другого робота ПС)

User-agent: * (означает: для всех остальных роботов)

Посмотреть, как называются роботы поисковой системы Яндекс, можно на странице: http://help.yandex.ru/webmaster/?id=996567#996568

Необходимо строго соблюдать правила написания директив. А именно: перед каждой директивой User-agent должна быть пустая строка, а все остальные директивы, относящиеся к данному блоку – идти после нее (каждая директива должна прописываться с заглавной буквы с новой строки, при этом содержать не более одного правила). Содержимое директивы (то что идет через пробел после «:» прописывается в нижнем регистре, за исключением названия роботов).

Пример:

User-agent: Yandex
Allow: (адрес файла или папки, который нужно разрешить для индексации)
Disallow: /

User-agent: *
Allow: (адрес файла или папки, который нужно разрешить для индексации)
Disallow: /

Адрес файла или папки пишется без указания главной страницы и http. Например: Disallow: /administrator/ (данная директива закрывает административные файлы сайта).

Директива Disallow используется для запрета роботам индексации файлов.

Пример:

Disallow: /cgi-bin/ (запрещаем индексировать все, что лежит в папке cgi-bin)
Disallow: *.php (запрещает индексировать все файлы содержащие .php)
Disallow: / (запрещает индексировать все файлы)

Директива Allow разрешает индексировать файлы. Ставить ее нужно перед директивой Disallow.

Директива Host используется для робота Яндекса, для указания главного зеркала сайта. При этом очень важно знать, что в директиве Host прописывается тот url, который Вы собираетесь продвигать. То есть, если Вы продвигаете свой сайт без www, то и в директиве Host необходимо прописывать его без www.

Пример:

User-agent: Yandex
Host: adblogger.ru

Директиву Host необходимо указывать в конце, а url сайта в ней пишется без http:// и без закрывающего слеша /.

Директива Sitemap содержит адрес карты сайта, которая необходима для более быстрой индексации новых страниц. Директива Sitemap указывается в конце блока, после директивы Host.

Директива Crawl-delay необходима для того, чтобы задать роботу минимальную паузу между закачкой двух документов с сайта. Это необходимо, если сайт находится на медленном сервере, который может «упасть» из-за частого обращения робота поисковой системы. Время указывается в секундах.

Пример:

Crawl-delay: 2

Робот будет делать паузы в 2 секунды между закачиваем двух документов. Робот Яндекса поддерживает дробные значения параметра (0.5 2.5 и т.д.), Однако далеко не все поисковые системы следуют данной инструкции. Директиву Crawl-delay необходимо ставить после директив Allow и Disallow

Использование спецсимволов * и $ в файлах robots.txt

При указании содержимого директив Allow и Disallow можно использовать спецсимволы * и $. Спецсимвол * заменяет любую последовательность символов, а спецсимвол $ указывает на конец url (то есть после него уже ничего не подразумевается).

Пример:

Disallow: .php$

Данная директива запретит к индексации документ с адресом file.php, но не будет распространяться на файл file.php&=param_pam_pam

Еще хочется отметить, что сайты могут быть написаны на различных движках (CMS). Поэтому при написании robots.txt следует уделить этому большое внимание, и прочитать про особенности именно вашей CMS, чтобы правильно закрыть от индексации документы сайта.

Закрытие дублей и «мусора» через файл robots.txt

Для большинства сайтов имеет смысл закрывать:

Дубль главной страницы через команду Disallow: /index.php$
Дубли, возникающие при переходе на сайт по объявлениям с контекстной рекламы (в этом случае к адресу страницы примешиваются различные параметры).
Сессии, если они есть в адресах страниц.
Страницы версий для печати (часто используются в новостях)
Разделы с персональными данными, например, личные кабинеты пользователей.
В интернет-магазинах — корзину товаров, разделы с помощью для покупателей (как сделать заказ, способы оплаты и доставки), в ряде случаев в интернет-магазинах стоит закрыть от индексации раздел с новостями, акциями – любые страницы, которые не будут давать трафик из поисковых систем.
На форумах – профили пользователей (если они не дают трафик из поисковых систем), страницу регистрации нового пользователя, страницу для восстановления пароля, раздел помощи для пользователей, иные технические страницы.
На любых сайтах, где имеется функция поиска – страницу результатов поиска.
Если на сайте установлен ЧПУ – имеет смысл закрыть от индексации все страницы с .php (т.к. скорее всего под такими страницами будут скрываться документы по старым адресам, полученным до внедрения ЧПУ). Но надо смотреть конкретный случай!
RSS-ленты

Как проверить robots.txt?

Для проверки правильности написания файла robots.txt существуют специальные сервисы, предоставленные поисковыми системами. Самый удобный из них – сервис Яндекса, который находится по адресу http://www.webmaster.yandex.ru/robots.xml

Работает инструмент так: Вы указываете адрес сайта, загружаете с него содержание файла robots.txt, затем вводите адреса страниц для проверки – и сервис отвечает, какие страницы из указанных будут проиндексированы, а какие – нет по причине запрета индексации в файле robots.txt

Рекомендуемые статьи