META ROBOTS или robots.txt?
Существует два метода донести до поисковика, какие страницы следует индексировать, а какие нет — это использование «meta тега robots» или создание файла «robots.txt». Так какой же из методов лучше использовать для запрета индексации определенных страниц сайта? В каких случаях и почему необходимо запрещать индексировать некоторые страницы сайта?
Быть может, на Вашем сайте имеется версия страниц для печати или же PDA версия сайта. Проблема заключается в том, что поисковые системы придают меньшую значимость одинаковому тексту, который встречают на разных URL-адресах. В таких случаях имеет смысл заблокировать один из вариантов сайта для поисковых систем. Так же, ограничения поисковой системы в индексировании некоторых частей Вашего сайта позволит ей проиндексировать больше полезной, действительно значимой информации.
Запрет индексации с помощью файла «robots.txt»
Один из вариантов, как это можно сделать — использовать файл «robots.txt». Ниже приведен пример этого файла:
User-agent: *
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.vlg-nav.ru
Sitemap: http://www.vlg-nav.ru/sitemap.xml
User-agent: Yandex
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.vlg-nav.ru
Sitemap: http://www.vlg-nav.ru/sitemap.xml
User-agent: googlebot
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.vlg-nav.ru
Sitemap: http://www.vlg-nav.ru/sitemap.xml
Директива «User-agent»
Как видите, файл содержит обращение к конкретному агенту поисковика через директиву «User-agent». Используя ее, Вы, скажем, можете разрешить одному поисковику индексировать сайт, а другому нет. Или же разрешить индексировать разным поисковым системам разные страницы сайта. Так же можно обратиться сразу ко всем агентам поисковых систем указав в качестве значения для директивы «User-agent» символ «*». Таким образом поисковой агент, прочитав файл «robots.txt» и не найдя в нем указаний для себя, будет искать правила, описанные для «User-agent: *».
Ниже приведен список некоторых «User-agent» для разных поисковых систем:
- «Yandex» — агент поисковика «Яндекс».
- «Googlebot» — агент поисковика «Google».
- «Googlebot-Mobile» — агент поисковика «Google», сканирует страницы для включения в индекс для мобильных устройств.
- «Googlebot-Image» — агент поисковика «Google», сканирует страницы для индекса картинок.
- «Mediapartners-Google» — агент поисковика «Google», сканирует страницы для определения содержания «AdSense».
- «Adsbot-Google» — агент поисковика «Google», сканирует страницы, оценивая качество целевых страниц для «AdWords».
- «StackRambler» — агент поисковика «Rambler».
Директива «Disallow»
Директива «Disallow» указывает поисковому агенту, какие разделы сайта запрещены для индексации. Используя директивы «User-agent» и «Disallow» можно запретить определенной поисковой системе индексировать Ваш сайт. Вот так, например можно запретить «Google» индексировать полностью весь сайт:
User-agent: googlebot
Disallow: /
А следующим образом можно закрыть сайт для индексации всем поисковым системам:
User-agent: *
Disallow: /
В директиве «Disallow» следует указывать каталоги сайта, которые необходимо закрыть от индексации. Например, администратор сайта не хочет, чтобы индексировалась PDA версия сайта, расположенная по адресу www.example.ru/pda/. Это можно сделать следующим образом:
User-agent: *
Disallow: /pda/
Довольно часто возникает вопрос, надо или нет ставить «слеш» после названия раздела, указанного в директиве «Disallow»? Дело в том, что для поисковой системы www.example.ru/pda/ и www.example.ru/pda являются абсолютно разными страницами сайта, поэтому если программное обеспечение сайта выдает одинаковое содержимое как для www.example.ru/pda/ так и для www.example.ru/pda, то в «robots.txt» нужно указать:
User-agent: *
Disallow: /pda/
Disallow: /pda
Таким образом, мы закроем оба раздела от индексирования для всех поисковых систем.
Побочным эффектом последнего метода может стать то, что Disallow: /pda запретит индексацию так же таких страниц, как /pda.html, /pda-download.html и т. д., т. е. всех страниц, которые начинаются с pda и лежат к корневой директории сайта.
Следующий код не запрещает ничего, т. е. разрешает индексировать все страницы сайта для всех поисковых систем:
User-agent: *
Disallow:
Обратная по смыслу директиве «Disallow» является директива «Allow». «Allow» разрешает индексировать указанный в ней раздел сайта. Допустим нам нужно запретить индексирование всего сайта, за исключением раздела /info/. В этом случае нам не нужно перечислять все остальные разделы в директивах «Disallow», чтобы закрыть их от индексации. Правильным решением будет следующий код:
User-agent: *
Allow: /info/
Disallow: /
Таким образом мы разрешили всем поисковым системам индексировать раздел сайта /info/, но запретили индексировать все остальные разделы.
Директива «Host»
Директива «Host» определяет основной адрес сайта. Это актуально в случае, если Ваш сайт имеет несколько зеркал. Указав в директиве «Host» основное зеркало, Вы поможете поисковику сделать правильный выбор. Директива «Host» для одного «User-agent» может быть только одна.
Директива «Sitemap»
Директива «Sitemap» указывает поисковому агенту расположение файла карты сайта «sitemap.xml». Это поможет поисковику быстрее найти файл карты сайта. В случае, если на Вашем сайте используется несколько карт, то их можно указать следующим образом:
User-agent: *
Sitemap: http://www.example.com/sitemap1.xml
Sitemap: http://www.example.com/sitemap2.xml
Проверить, правильно ли составлен файл «robots.txt» можно с помощью специальной службы «Яндекса».
Часто возникает заблуждение, что файл «robots.txt» помогает индексировать Ваш сайт. Оно ошибочно. С помощью файла «robots.txt» можно дать поисковику больше времени на индексацию полезных разделов Вашего сайта, но он не дает никакой гарантии, что Ваш сайт будет проиндексирован.
Теперь, ниже постараюсь описать использование «meta тега robots».
Запрет индексации с помощью «meta тега robots»
Итак, второй способ запретить поисковым системам индексировать страницы сайта — это использовать «META тега ROBOTS». Пример использования:
<meta name="Description" content="Информационный портал города Волгограда" />
<meta name="robots" content="noindex,nofollow" />
<title>Каталог организаций Волгоград</title>
В данном случае, страница будет закрыта для индексирования поисковыми системами.
Допустим, у Вас на сайте имеется возможность в администраторском разделе выбирать страницы или категории, индексирование которых требуется запретить. Можно программно создать алгоритм, который при генерации XHTML-шаблона страницы будет втавлять в код «meta тег robots». Теоретически, подобную технику можно реализовать и использованием файла файл «robots.txt», но сложность заключается в том, что каждый раз нужно будет пересобирать файл заново, в то время, как при использовани «meta тега robots», его нужно только вставить в код нужной Вам страницы. Так же, с помощью «meta тега robots» невозможно обратиться к определеной поисковой системе.
Примеры использования «meta тега robots»
noidex,nofollow
Самый распространенный случай, это когда требуется запретить индексировать страницы, а так же не следовать ссылкам, расположенным на ней. Вот каким кодом это можно организовать:
<meta name="robots" content="noindex,nofollow" />
noindex,follow
В случае, если требуется запретить индексирование, но разрешить передачу ссылочного веса ссылкам на странице:
<meta name="robots" content="noindex,follow" />
В случае, если требуется разрешить индексирование страницы, без передачи ссылочного веса ссылкам:
index,nofollow
<meta name="robots" content="index,nofollow" />
Так же можно комбинировать использование файла «robots.txt» с «meta тегом robots». Это может дать некоторые преимущества. Вопервых, это двойная гарантия, что нужная станица не будет проиндексирована, хотя ничто не может помешать поисковому роботу проигнорировать как файл, так и META тег, и получить содержание страницы, но это так, к слову.
«meta тег robots» имеет преимущество перед файлом «robots.txt», при условии, что в файле индексирование разрешено, а в meta теге запрещено. Таким образом, можно, например, запрещать индексацию методом исключений.
В общем, вроде бы все, что хотел рассказать по поводу запрета индексирования страниц поисковыми системами. Может быть, в ближайшем времени напишу статью, каким образом можно программно генерировать файл «robots.txt» при каждом запросе к нему, а так же опишу плюсы и минусы данного метода.
Control your index
Похожие темы
RSS-лента комментариев к этой статье | Обратная ссылка (trackback link)

Сасибо за пост.
Самое внятное и доходчивое обяснение работы robot.txt что смог найти в сети.
спасибо! очень подробно описано!
а кто нибудь знает сервис который бы проверял сайт и выдавал информацию о том что заблокировано в robots.txt и meta ? типа — ввёл адрес и тебе выдало что и как доступно а что нет..
Тест robots.txt возможен из инструментов для вебмастеров, как гугла, так и яндекса. Вводите интересующий вас URL, и вам будет выдано, доступен он или нет в данной поисковой системе.
Nikon. Ты что не был в панельки wmconsole яндекса? Потом проверка роботса и тама как раз всё для тебя)) Спс, за мета теги, надо будит на блоке выложить обработаную статейку. ТС +1
Что будет обозначать такая надпись в файле robots.txt:
User-agent: Mediapartners-Google*
Disallow:
User-Agent: *
Disallow:
Host: http://www.имя сайта.ru
Есть смысл?
Смысла нету, т.к. вы и так ничего не запрещаете индексировать.
Спасибо! Всё просто и доступно.
Есть ли у вас статья про ? Если есть, то вышлите, плиз, ссылку.
в первом посте я справшивал про тег — NOINDEX. Я его обрамил скобками и его вырезало из поста…:)
Хм, да вроде бы тут практически вся информация по этому тегу, больше чет мне даже в голову не приходит, что добавить
Я имел в виду не опцию NOINDEX в META — ROBOTS, а отдельный тег.
Например (не знаю, пропустит ли ваш валидатор ссылки):
http: // http://www.webkomora.com.ua/ru/articles/web/raskrutka/verification/sovet_6.html
http: // depositfiles.od.ua/tags/noindex.php
Инфы как бы хватает, просто, поскольку однозначного мнения нет, то хотел узнать ещё ваше.
В любом случае спасибо.
Директива HOST зобретение Яндекса, ее лучше в роботс.тхт вставлять один раз и то, после всего описания дыбы не смущать другие поисковики.
У меня блог на бесплатном хосте, к файлу роботс — доступа нет, могу лишь мета тегами управлять доступ. Возможно ли мета тегом запретить индексацию всего блога лишь для яндекса??
мне это очень важно, потому что яндекс очень портит статистику.
Спасибо! Только здесь нашла ответы на все свои вопросы и избавилась от разных сомнений по поводу robots.txt и Robots Meta
А как быть в таком случае:
У меня адрес сайта имеет следующи й вид ссылок
урл сайта/?article=17
в последнее время начали появляться дубли вида урл сайта/index.php?article=17
по сути эта ссылка ведет на такуюже статью.
как запретить такой урл
если я запрещу к индексации index.php то проиндексируются ли нормальные урлы?