Создание файла robots.txt

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt.

Главной командой, с которой, как правило, начинают файл robots.txt является команда выбора поисковых роботов User-Agent. 

Несколько шаблонов использования команды:

User-Agent: * - будут использоваться все поисковые роботы;
User-Agent: Yandex - условия для роботов только «Яндекса».

В следующей строке документа указывают команды для запрета индексации. Обычно, файл robots.txt используют для запрета индексирования некоторых файлов или папок. Для этого необходимо использовать команду Dissalow.

Примеры ограничения индексации:

Disallow: / - запретить индексацию всего сайта;
Disallow: - разрешено индексировать все файлы;
Disallow: /component/  - не индексировать папку «component»;
Disallow: index.html – не индексировать файл; 
Disallow: /component/index.html - не индексировать файл в папке;

Отметим, что команд может быть сколько угодно, но все они должны начинаться с отдельной строки.

Еще одно необходимой командой является послание на карту сайта, чтобы поисковики могли быстро и оптимально проиндексировать ваш портал. Делается это с помощью команды Sitemap.

Несколько примеров использования  этой команды:

Sitemap: http://site.ru/sitemap.xml - ссылка на страницу карты, которая размещена в корневом каталоге сайта;
Sitemap: http://site.ru/index.php?option=com_xmap&sitemap=1&view=xml – путь к странице с картой.

Напоследок рассмотрим еще одну команду, которая наверняка пригодится вам в будущем. Команда Host, которая используется для устранения проблем с зеркалами вашего портала, указывая ссылку на основное.

Примеры использования команды Host:

Host: sitename.ru - главное отображаемое название портала;
Host: www.sitename.ru - название сайта будет включать www.

Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой "Crawl-delay". Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву "Crawl-delay" необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow").

Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.

Примеры использования команды Crawl-Delay:

User-Agent: Yandex 
Crawl-Delay: 20

Следующие 2 команды которые могут пригодится:

Request-rate: 1/10 - для западных ботов разрешена загрузка не более одной страницы для индексации за 10 секунд (уменьшает нагрузку на сервер)
Visit-time: 0200-0545 - разрешаем ботам западных поисковых систем загружать для индексации страницы вашего сайта с 2 утра до 5:45 по Гринвичу (способствует уменьшению нагрузки на сервер)

Допустим при проверки Яндесом вашего файла robots.txt, Яндекс может сообщить о неизвестных/ошибочных командах - это команды которые Яндекс робот не может использовать, их используют другие роботы. Эти ошибки не повлияют на работу Яндекса.

Правильный robots.txt для сайта:

User-agent: * - открытие доступа всем роботам
Disallow: /administrator/ - закрытие папки на индексацию
Crawl-Delay: 5 - интервал между посещениями страниц роботами
Sitemap: http://www.nix-sys.ru/index.php?option=com_xmap&sitemap=1&view=xml - ссылка на карту сайта
Visit-time: 0000-0545 - время для работы роботов
Host: www.nix-sys.ru - точный адрес главной страницы

Так же заблокировать отдельную страницу сайта можно с помощью meta тегов, которые находятся между тегами <head>...</head>:

<meta name="robots" content="index, follow" /> - разрешить индексирование и проход по ссылкам
<meta name="robots" content="noindex, follow" /> - запретить индексирование и разрешить проход по ссылкам
<meta name="robots" content="index, nofollow" /> - разрешить индексирование и запретить проход по ссылкам

Для того что бы запретить индексирование и проход по ссылки используется такой код:

<noindex><a rel="nofollow" href="http://www.apache.ru/docs/fishki.html" target="_blank">Русскоязычная документация на Apache сервер</a></noindex>
где теги <noindex>...</noindex> запрет для Яндекс робота, а код в ссылке rel="nofollow" запрет для Гугла робота. Их можно использовать по отдельности в зависимости от ожидаемого эффекта. 

Печать

Добавить комментарий

Защитный код
Обновить