Файл robots.txt
ограничивает доступ роботов, сканирующих Интернет для поисковых систем, к
вашему сайту. Перед обращением к страницам сайта эти роботы
автоматически ищут файл robots.txt, который запрещает им доступ к
определенным страницам. (Роботы наиболее распространенных поисковых
систем выполняют директивы файла robots.txt. Некоторые роботы могут
интерпретировать их иначе. Однако файл robots.txt не является
обязательным к исполнению, и некоторые спамеры и другие злоумышленники
могут его игнорировать. Поэтому мы рекомендуем защищать конфиденциальную
информацию паролем.)
Файл robots.txt необходим только в том случае, если на вашем сайте
есть содержание, которое не следует включать в индекс поисковых систем.
Если вы хотите, чтобы поисковые системы включали в свои индексы все
содержание вашего сайта, файл robots.txt (даже пустой) не требуется.
Хотя Google не сканирует и не индексирует содержание страниц,
заблокированных в файле robots.txt, URL-адреса, обнаруженные на других
страницах в Интернете, по-прежнему могут добавляться в индекс. В
результате URL страницы, а также другие общедоступные сведения, например
текст ссылок на сайт или заголовок из каталога Open Directory Project, могут появиться в результатах поиска Google.
Чтобы использовать файл robots.txt, необходимо иметь доступ к
корневому каталогу вашего домена (в случае сомнений обратитесь к
поставщику услуг веб-хостинга). Если у вас нет доступа к корневому
каталогу домена, вы можете ограничить доступ с помощью метатега robots.
Чтобы полностью исключить вероятность появления
контента страницы в индексе Google, даже если на нее ссылаются другие
сайты, используйте метатег noindex. Если робот Googlebot начнет сканировать страницу, то обнаружит метатег noindex и не станет отображать ее в индексе.
Источник: http://www.google.com/support/webmasters/bin/answer.py?answer=156449&cbid=-dks5lzred10g&src=cb&lev=%20index |