Про сайт и robots.txt
31.05.2007
Доигрался. Один из сайтов, нормально индексировался, все страници были в индексе. И вот. В один прекрасный момент – страници начали потихоньку пропадать из индекса, и за 2 апа от 250 страниц осталось только 40. В свете последних событий, был весьма озадачен.
Определились довольно быстро. Сайт продвигался с www , ссылки ставились тоже с www, cms работало на конфигурации с www. Но доблестный зеркальщик Я. определил главным сайт без www.
Соответственно отвалились все страници сайта из индекса. Пошутковал. А если честно – надоели эти шутки Яндекса и неадекватность его работы.
Что будем делать. Скорее всего ничего. Ставить редиректы и прописывать host в robots.txt вроде как уже поздно, да и ждать когда бот по новой перезеркалит – не хочется. Просто переключил конфигурацию cms на работу без www. Посмотрим чем кончится.
Про редирект и robots.txt уже писал ранее. Да и сама директива host определяется только Яндексом, ))) как подпорка ему для корректировки работы его зеркальщика, что уже говорит о некорректной его работе.
Итак, чтобы было поменьше проблем в будущем, и вы уже определились, как будете представлять сайт с www или без, обязательно пропишите host в robots.txt. Яндекс не рекомендует проводить редирект до зазеркаливания сайта, что может привести к некорректной либо вообще отсутствии
индексации сайта.
Немного о robots.txt и host
-robots.txt — обычный файл текста, который находиться в корневой директории сайта.
-robots.txt – содержит инструкции для роботов ПС и других.
-На сайте может быть только один файл “/robots.txt”.
-В записи должна быть хотя бы одна инструкция “Disallow:”
Общий принцип – бот заходит на сайт , ищет robots.txt , считывает инструкции, исследует сайт , руководствуясь инструкциями.
Принцип общий, поэтому не все боты подчиняются.
Что писать в файл robots.txt Общий вид
User-agent: *
Disallow:
Для Яндекса добавьте host для сайта
User-agent: Yandex
Disallow:
Host: myhost.com
В общем читается инструкция как, разрешить всем роботам (Яндексу) индексировать весь сайт ( для Яндекса – основной сайт myhost.com) Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы хотите.
Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт
User-agent: *
Disallow:
Закрыть от индексации только несколько каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для одного робота
User-agent: Yandex
Disallow: /
НЕВЕРНО
User-agent: *
Host:www.myhost.com
- отсутствует Disallow:
User-agent: *
Disallow:
User-agent: Yandex
Disallow:
Host: myhost.com
как выяснилось такое расположение инструкций для Яндекса так же неверно, при таком расположении бот пробрасывает инструкции относящиеся к нему. Надо писать-
User-agent: Yandex
Disallow:
Host: myhost.com
User-agent: *
Disallow:
Регулярные выражения и символы подстановки так же нельзя использовать.
«Звездочка» (*) в инструкции User-agent означает «любой робот».
Инструкции вида «Disallow: *.gif» или «User-agent: Ya*” не
поддерживаются.
Каждая инструкция пишется на одной строке без переносов.
Для каждого файла или папки вписываемой в роботс должна быть своя инструкция ( коллективные не обрабатываются).
Извините, но коментирование запрещено.