Файл robots.txt

Что это такое файл robots.txt, для чего он нужен на Вашем сайте и как им пользоваться?

Итак, файл robots.txt это обычный текстовый файл, который в корневой папке сайта и содержит инструкции для поисковых роботов. Как правило, поисковик, заходя на Ваш сайт, вначале ищет именно этот файл и считывает его инструкции. Даже существует мнение, что некоторые поисковики не индексируют сайты не содержащие файл robots.txt, но, на сегодняшний день, я думаю, что это не так. Кстати, название файла robots.txt прописывается именно строчными буквами, заглавные - недопустимы.

Используется файл robots.txt, как правило, для того чтобы скрыть от поискового робота отдельные страницы, или папки от индексирования. Для чего это нужно? Ну, например, Вы продаете с сайта какой либо цифровой товар и на страницы со ссылками на скачивание этого товара посетители должны допускаться только лишь после оплаты. Тогда, естественно, данные страницы, или папку их содержащую, стоит запретить для добавления в базу индекса поисковиков. Поскольку, в противном случае, получить этот товар можно буквально по ссылке из поисковика.

Так же целесообразно, при использовании на сайте множества скриптов, запретить к индексации папки с этими скриптами. Это делается для облегчения индексации тематического контента сайта, т.е., проще говоря, чтобы поисковой робот не бродил по этим папкам в поисках смыслового содержания, а направлялся прямо на страницы с контентом.

Файл robots.txt состоит из одной или нескольких инструкций. Каждая их этих инструкций отделяется от другой пустой строкой. Так же каждая инструкция состоит из двух частей. Первая часть инструкции говорит, к кому это относится, то есть какой поисковик должен следовать данной инструкции, вторая говорит, что нельзя индексировать.

В первой части пишется User-Agent: (название поисковика). Если относится ко всем поисковикам, то можно писать User-Agent: *.

Вторая часть выделяется словом Disallow, т.е. "запретить". Если Вы хотите запретить индексировать весь сайт, то нужно написать Disallow: /, если же разрешаете обрабатывать сайтединичный ресурс интернета. полностью, то после Disallow должна следовать пустота.

Вы можете указать, какие папки (Disallow: /имя папки/) или же файлы (Disallow: /имя файла.расширение) не следует индексировать. Так же в файл robots.txt можно добавлять комментарии, строка с комментарием должны начинаться значкам #.

Примеры файла robots.txt:

# Разрешаем индексировать все страницы сайта всем поисковикам
User-agent: *
Disallow:

# Запрещаем индексировать все страницы сайта всем поисковикам:
User-agent: *
Disallow: /

# Запрещает ботам Яндекса посещать папку http://site.ru/test/
# и файл http://site.ru/print.html
User-agent: Yandex
Disallow: /test/
Disallow: /print.html

# Запрещает посещение ботами
# GoogleGoogle - на сегодняшний день самая популярная на западе поисковая система. и Апорт http://site.ru/temp/img/
User-agent: Aport
User-agent: Googlebot
Disallow: /temp/img/

Но, стоит сказать, что использование файла robots.txt может привлечь к скрываемым Вами папкам, вниманиеКогнитивный процесс. Упорядочивание поступающей извне информации в аспекте приоритетности стоящих перед субъектом задач. Эксперименты с рассеченным полушарием мозга покрывает, что процессы внимания тесно связаны с работой мозолистого тела, при этом левое полушарие обеспечивает селективное внимание, а правое - поддержку общего уровня настороженности. Свойства. Эффективность внимания может быть определена уровнем внимания (интенсивность, концентрация), объемом (широта, распределение внимания), скоростью переключения и устойчивостью. слишком любопытных пользователей. Дело в том, что просмотреть содержимое файла robots.txt можно набрав в строке браузера: http://сайт.ru/robots.txt и тогда, увидев какие папки скрыты от индекса, посетительчеловек пришедьший на веб сайт. может набрать: http://сайт.ru/папка/ и увидеть содержимое папки. Чтобы этого не произошло, нужно следить чтобы в каждой папке непременно присутствовал файлкусок информации на диске, имеющий собственное имя и адрес. index.htm (.html, .phtml, .shtml, .xml, .php, .asp, .pl кому что больше нравится).

Так же можно защитить от индексации каждую страницу сайта в отдельности при помощи мета-тега:
«meta name="robots" content="команды, разделенные запятой"»

В качестве команд могут выступать:

INDEX разрешение индексации страницы;
NOINDEX запрет индексации страницы;
FOLLOW разрешение на индексацию ссылок, находящихся на данной странице;
NOFOLLOW запретзапретить что кому, не позволять, не разрешать, не допускать. индексации ссылок, находящихся на данной странице;
NONE полное игнорирование страницы (т.е. NOINDEX, NOFOLLOW);
ALL разрешение индексации страницы и всех ссылок, на ней находящихся (т.е. INDEX, FOLLOW).

Ну, и в заключении имена наиболее актуальных для Рунета роботов:
Yandex
Googlebot
StackRambler
Aport

Комментариев: [1] / Оставить комментарий

Файл robots.txt

Спасибо за очень подробное разъяснение для чего файл robots.txt и что в нем писать. Давно искала что-то подобное.
03 Feb 2012 21:20:47

Новый троянец угрожает пользователям Facebook - HiTech.Expert

siteua.org Новый троянец угрожает пользователям Facebook HiTech.Expert OneX.1 проверяет наличие своей копии в операционной системе, а затем расшифровывает из собственных ресурсов адрес удаленного сервера, с которого загружается специальный текстовый файл . Этот файл содержит несколько строк на английском языке вида hahaha! http: goo.gl ... Начало года глазами экспертов по кибербезопасности Поисковые системы подсовывают "лишние" страницы Эксперты обнаружили вирус, заменяющий сообщения в Facebook на спам
03 Feb 2012 18:34:09

Ия Баратели: Что думают в Грузии про российские протесты - Радиостанция ЭХО МОСКВЫ

Ия Баратели: Что думают в Грузии про российские протесты Радиостанция ЭХО МОСКВЫ Из папки с плагином запустите файл "Register.bat" (это регистрация движка СhatCore в системе), если нет прав на запуск этого файла , то не выбирайте в качестве движка ChatCore, плагин будет работать и без него; 3. Обязательно зайти в настройки бота и выставить необходимые опции; ...
03 Feb 2012 17:38:40

Mass Effect 3: Файл сохранений удалять не стоит - Console.by

Console.by Mass Effect 3: Файл сохранений удалять не стоит Console.by Очевидно, что я не могу сказать большего, но файлы сохранения удалять не советую . Несмотря на то, что некоторые игроки не могут себе представить продолжение истории Mass Effect без Шепарда, но этой вселенной есть куда двигаться, уверяет Mike Gamble. Не вдаваясь в подробности можно говорить об ...

Keywords:

файл, файл нем, файл состоит, файл спасибо, файл html, файл можно, файл правило, файл обычный, файл сегодняшний, файл считывает

Создание мини сайта
Mini-Site GENERATOR Pro.

Это – мощный программный комплекс, который позволяет генерировать продающий мини-сайт, и другие коммерческие скрипты, одним кликом мыши.
Получть бесплатно>>>