
Если Вы начали заниматься сайтостроением, то наверняка слышали о таком файле — Robots.txt.
Сегодня мы разберемся с Вами, что это за файл, зачем он нужен и как правильно его составить.
Robots.txt — это файл... обычный текстовый файл, который лежит на сервере в корневой папке Вашего сайта.
Как? У Вас еще не лежит? А ну бегом его создавать! Он очень нужен для правильной индексации Вашего сайта поисковыми роботами. В нем содержатся специальные инструкции для них.
Эти инструкции могут запрещать к индексации некоторые разделы или страницы Вашего сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера, указывать ему, где находится карта сайта для более качественной индексации и многое другое.
Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если они его находят — выполняют прописанные в нем инструкции, а если не находят — то идут и индексируют все подряд.
Но нам то этого не надо... Нам не надо, чтобы поисковики индексировали админскую часть нашего сайта, приватный контент (если есть) и многое другое.
Запомните! На сайте может быть только один файл «/robots.txt». Поэтому не следует помещать его в пользовательские подкаталоги – все равно роботы не будут его там искать.
А теперь давайте разберемся, как правильно его составить.
В файл robots.txt обычно пишут нечто вроде:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
В этом примере запрещена индексация трех директорий.
Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.
Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.
Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт
User-agent: *
Disallow:
Или можете просто создать пустой файл «/robots.txt».
Закрыть от индексации только несколько каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для одного робота
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Ну и на последок вот пример полностью готового файла robots.txt для сайта на WordPress:
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.ВАШСАЙТ.ruUser-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */commentsSitemap: http://ВАШСАЙТ.ru/sitemap.xml
Естественно, вместо ВАШСАЙТ.ru — подставляете адрес Вашего сайта. Сохраняем файл и копируем его в корневую папку блога. Вот и все!
Желаю Вам удачи.
P.S. Теперь будем видеться почаще — я выкроил в своем графике немного времени и буду регулярно выделять его на написание интересных и полезных статей для Вас. Так что, кто еще не подписан — подписываемся на обновления и готовимся к серьезному обучению. )))
Все разложено по полочкам и понятно! Как и нужно для нас,новичков.Спасибо!
решил вам немного помочь и послал этот пост в социальные закладки
Благодарю