Файл robots.txt
Что это такое файл robots.txt, для чего он нужен на Вашем сайте и как им пользоваться?
Итак, файл robots.txt это обычный текстовый файл, который в корневой папке сайта и содержит инструкции для поисковых роботов. Как правило, поисковик, заходя на Ваш сайт, вначале ищет именно этот файл и считывает его инструкции. Даже существует мнение, что некоторые поисковики не индексируют сайты не содержащие файл robots.txt, но, на сегодняшний день, я думаю, что это не так. Кстати, название файла robots.txt прописывается именно строчными буквами, заглавные - недопустимы.
Используется файл robots.txt, как правило, для того чтобы скрыть от поискового робота отдельные страницы, или папки от индексирования. Для чего это нужно? Ну, например, Вы продаете с сайта какой либо цифровой товар и на страницы со ссылками на скачивание этого товара посетители должны допускаться только лишь после оплаты. Тогда, естественно, данные страницы, или папку их содержащую, стоит запретить для добавления в базу индекса поисковиков. Поскольку, в противном случае, получить этот товар можно буквально по ссылке из поисковика.
Так же целесообразно, при использовании на сайте множества скриптов, запретить к индексации папки с этими скриптами. Это делается для облегчения индексации тематического контента сайта, т.е., проще говоря, чтобы поисковой робот не бродил по этим папкам в поисках смыслового содержания, а направлялся прямо на страницы с контентом.
Файл robots.txt состоит из одной или нескольких инструкций. Каждая их этих инструкций отделяется от другой пустой строкой. Так же каждая инструкция состоит из двух частей. Первая часть инструкции говорит, к кому это относится, то есть какой поисковик должен следовать данной инструкции, вторая говорит, что нельзя индексировать.
В первой части пишется User-Agent: (название поисковика). Если относится ко всем поисковикам, то можно писать User-Agent: *.
Вторая часть выделяется словом Disallow, т.е. "запретить". Если Вы хотите запретить индексировать весь сайт, то нужно написать Disallow: /, если же разрешаете обрабатывать сайтединичный ресурс интернета. полностью, то после Disallow должна следовать пустота.
Вы можете указать, какие папки (Disallow: /имя папки/) или же файлы (Disallow: /имя файла.расширение) не следует индексировать. Так же в файл robots.txt можно добавлять комментарии, строка с комментарием должны начинаться значкам #.
Примеры файла robots.txt:
# Разрешаем индексировать все страницы сайта всем поисковикам
User-agent: *
Disallow:
# Запрещаем индексировать все страницы сайта всем поисковикам:
User-agent: *
Disallow: /
# Запрещает ботам Яндекса посещать папку http://site.ru/test/
# и файл http://site.ru/print.html
User-agent: Yandex
Disallow: /test/
Disallow: /print.html
# Запрещает посещение ботами
# GoogleGoogle - на сегодняшний день самая популярная на западе поисковая система. и Апорт http://site.ru/temp/img/
User-agent: Aport
User-agent: Googlebot
Disallow: /temp/img/
Но, стоит сказать, что использование файла robots.txt может привлечь к скрываемым Вами папкам, вниманиеКогнитивный процесс. Упорядочивание поступающей извне информации в аспекте приоритетности стоящих перед субъектом задач. Эксперименты с рассеченным полушарием мозга покрывает, что процессы внимания тесно связаны с работой мозолистого тела, при этом левое полушарие обеспечивает селективное внимание, а правое - поддержку общего уровня настороженности. Свойства. Эффективность внимания может быть определена уровнем внимания (интенсивность, концентрация), объемом (широта, распределение внимания), скоростью переключения и устойчивостью. слишком любопытных пользователей. Дело в том, что просмотреть содержимое файла robots.txt можно набрав в строке браузера: http://сайт.ru/robots.txt и тогда, увидев какие папки скрыты от индекса, посетительчеловек пришедьший на веб сайт. может набрать: http://сайт.ru/папка/ и увидеть содержимое папки. Чтобы этого не произошло, нужно следить чтобы в каждой папке непременно присутствовал файлкусок информации на диске, имеющий собственное имя и адрес. index.htm (.html, .phtml, .shtml, .xml, .php, .asp, .pl кому что больше нравится).
Так же можно защитить от индексации каждую страницу сайта в отдельности при помощи мета-тега:
«meta name="robots" content="команды, разделенные запятой"»
В качестве команд могут выступать:
INDEX разрешение индексации страницы;
NOINDEX запрет индексации страницы;
FOLLOW разрешение на индексацию ссылок, находящихся на данной странице;
NOFOLLOW запретзапретить что кому, не позволять, не разрешать, не допускать. индексации ссылок, находящихся на данной странице;
NONE полное игнорирование страницы (т.е. NOINDEX, NOFOLLOW);
ALL разрешение индексации страницы и всех ссылок, на ней находящихся (т.е. INDEX, FOLLOW).
Ну, и в заключении имена наиболее актуальных для Рунета роботов:
Yandex
Googlebot
StackRambler
Aport
