robots.txt для drupal

Часто на drupal–сайтах (как и на всех других) складывается ситуация, когда роботам поисковых систем приходится индескировать массу несодержательных страниц. Несодержательными страницами могут быть например страницы отправки комментариев, входа в систему, регистрации и пр. Это увеличивает время индескации сайта (что может быть критично для больших сайтов), ведет к попаданию в индекс дуликатов страниц. Использовать robots.txt, включаемый в стандартный пакет drupal в первозданном виде не стоит, т.к. практика показывает что:

  • В индекс все равно попадают ненужные страницы.
  • Не учитываются страницы, создаваемые дополнительными модулями(например bookreview).
  • Отсутствует потенциально необходимая директива Host.
  • Руки чешутся самому все сделать.

Конкретный файл robots.txt создается для каждого сайта индивидуально. Здесь я лишь постараюсь на примере показать как избежать ошибок, отрицательно влияющих на индексацию сайта и иногда приводящих к санкциям со стороны поисковых систем, но объяснять директивы не буду. Давайте посмотрим на дополнительные директивы файла http://www.wisecat.ru/robots.txt

Disallow: /comment/
Запрет индексации страниц отправки комментариев.

Disallow: /user/register?
Disallow: /user/register
Запрет индексации страниц регистрации.

Disallow: /user/login?
Disallow: /user/login
Запрещаем индексировать страницы входа на наш drupal -сайт.

Disallow: /lnk?
Запрещены к индексации страницы, через которые открываются внешние ссылки, т.к. они не содержат ничего интересного.

Disallow: /*/feed$
Запрещены ленты новостей, которые создает drupal

Host: www.wisecat.ru
Директива для робота–зеркальщика яндекса.

Также помните, что вопреки распостраненному мнению Crawl–delay — очень нужная директива, снижающая нагрузку на сайт во время индексации и предотвращяющая превышение лимитов памяти и процессорного времени. Если убрать ее, то робот ПС может получить не страницу сайта, а сообщение о превышении допутимого объема памяти, а вы проблемы с хостером.

Комментарии

Добавить комментарий

Адрес показан не будет
CAPTCHA
Антибот
Как оформить комментарий?