Настройка для ботов-роботов в .htaccess

Напомним еще раз правила преобразования ссылок:

Если в подкаталогах в .htaccess нет ни одной директивы модуля mod_rewrite, то все правила преобразования наследуются из родительского каталога.

При наличии в файле .htaccess каких либо директив модуля mod_rewrite не наследуется ничего, а состояние по умолчанию выставляется таким же, как в главном конфигурационном файле веб-сервера (по умолчанию "off"). Поэтому, если нужны правила преобразования для конкретного каталога, то нужно еще раз вставить директиву "RewriteEngine on" в .htaccess для конкретного каталога.

При наследовании правил из верхних каталогов и добавлении к ним новых свойственных только данному каталогу - необходимо выставить в начале следущее: "RewriteEngine on" и "RewriteOptions inherit" - последняя директива сообщает серверу о продолжении.

Необходимо запрос любой страницы сайта отправлять на одну (будет написано что сайт временно не доступен), но в то же время нужно оставить его открытым для поисковых машин. То есть для клиентов сайт закрыт, а для индексации - открыт.

# Ставим это в начало htaccess

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} !^yandex.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^googlebot.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^.*gaisbot.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^rambler.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^aport.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^metacrawler.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^msnbot.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^.*crawler.* [NC,OR]
RewriteRule ^/$ - [L,R]

Жесткий запрет посещений нашего веб-сайта для робота поисковой системы Google

RewriteCond %{USER_AGENT} Googlebot
RewriteRule .* - [F]

# Другой вариант возвращает вместо ошибки 403 ( FORBIDDEN ) ошибку 404 ( NOT _ FOUND )

RewriteCond %{USER_AGENT} Googlebot
RewriteRule .* - [R=404]

Блокирование роботов

Описание:

Как мы можем заблокировать действительно надоедливых роботов на получение страниц из специфических областей сайта? Файла /robots.txt содержащего записи «Robot Exclusion Protocol» обычно недостаточно для избавления от такого робота.

Решение:

Мы используем набор правил запрещающие доступ для роботов к URL из веб-пространства /~quux/foo/arc/ (возможно это пространство имеет очень глубокую иерархию каталогов, обход которой роботом, привел бы к очень большой нагрузке на сервер). Мы должны убедиться что запрещается доступ только для конкретного робота, т.е. просто запрет для хоста с которого работает робот недостаточен. Это, также блокировало бы доступ пользователей с этого хоста. Этого эффекта мы добьемся проверяя также информацию из HTTP заголовока User-Agent.

RewriteCond %{HTTP_USER_AGENT} ^NameOfBadRobot.*
RewriteCond %{REMOTE_ADDR} ^123\.45\.67\.[8-9]$
RewriteRule ^/~quux/foo/arc/.+ - [F]

Список ботов наиболее распространенных в рунете:

Информация взята из хелпа Яндекса - User-agent для Яндекса - Yandex:
Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот Яндекса.
Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок.
Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов.
Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам.
YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей.
Bond, James Bond (version 0.07) — робот официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает.

IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов не разглашается.

Кроме роботов у Яндекса есть несколько агентов-«простукивалок»

(так называемые “дятлы“) , определяющих доступность сайта или документа, по ссылке в соответствующем сервисе.
Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

Поисковые роботы Google (Гугл) - User-agent для Гугла: Googlebot:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) - робот Google, понимающий протокол HTTP 1.1.
Mediapartners-Google - поисковой роботы AdSens
Googlebot-Image (Google) Googlebot-Image/1.0 - Индексатор картинок
Google Search Appliance (Google) gsa-crawler - поисковой робот аппаратного поисковика Search Appliance

Поисковые роботы Rambler (Рамблер)User-agent для Рамблера: StackRambler

Поисковая система Рамблер имеет только робота, Ip-адрес которого может лежать в пределах интервала 81.19.64.0 - 81.19.66.255
StackRambler/2.0 (MSIE incompatible)
StackRambler/2.0

Поисковые роботы Yahoo - User-agent для Yahoo: Slurp или Yahoo! Slurp:
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) - стандартный поисковой робот.
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) - новый поисковой робот Yahoo 3-го поколения, работает также как и предыдущий.

Поисковые роботы MSN - User-agent для MSN: MSNBot:
msnbot/1.1 (+http://search.msn.com/msnbot.htm) - основной индексирующий робот MSN.
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
msnbot-news (+http://search.msn.com/msnbot.htm) - новостной робот.

Поисковые роботы Alexa - User-agent для Alexa:
ia_archiver (+http://www.alexa.com/site/help/webmasters; Адрес электронной почты защищен от спам-ботов. Для просмотра адреса в вашем браузере должен быть включен Javascript.) - индексирующий робот Alexa, ему же мы обязаны попаданием в web.archive.org

Имена - обозначения других (как правило англоязычных) наиболее значимых поисковых систем:

AbachoBOT,ia_archiver, FAST-WebCrawler, Scooter, Jeeves, Firefly, MantraAgent, Lycos, psbot, teomaagent, Slurp

Русскоязычная документация на Apache сервер

Печать

Добавить комментарий

Защитный код
Обновить