Сайт и robots.txt » Блог DINa

Про сайт и robots.txt

31.05.2007
ReTweet

Доигрался. Один из сайтов, нормально индексировался, все страници были в индексе. И вот. В один прекрасный момент – страници начали потихоньку пропадать из индекса, и за 2 апа от 250 страниц осталось только 40. В свете последних событий, был весьма озадачен.
Определились довольно быстро. Сайт продвигался с www , ссылки ставились тоже с www, cms работало на конфигурации с www. Но доблестный зеркальщик Я. определил главным сайт без www.
Соответственно отвалились все страници сайта из индекса. Пошутковал.  А если честно – надоели эти шутки Яндекса и неадекватность его работы.
Что будем делать. Скорее всего ничего. Ставить редиректы и прописывать host в robots.txt вроде как уже поздно, да и ждать когда бот по новой перезеркалит – не хочется. Просто переключил конфигурацию cms на работу без www. Посмотрим чем кончится.

Про редирект и robots.txt уже писал ранее. Да и сама директива host определяется только Яндексом, ))) как подпорка ему для корректировки работы его зеркальщика, что уже говорит о некорректной его работе.

Итак, чтобы было поменьше проблем в будущем, и вы уже определились, как будете представлять сайт с www или без, обязательно пропишите host в robots.txt. Яндекс не рекомендует проводить редирект до зазеркаливания сайта, что может привести к некорректной либо вообще отсутствии
индексации сайта.

Немного о robots.txt и host

-robots.txt — обычный файл текста, который находиться в корневой директории сайта.
-robots.txt – содержит инструкции для роботов ПС и других.
-На сайте может быть только один файл “/robots.txt”.
-В записи должна быть хотя бы одна инструкция “Disallow:”

Общий принцип – бот заходит на сайт , ищет robots.txt , считывает инструкции, исследует сайт , руководствуясь инструкциями.
Принцип общий, поэтому не все боты подчиняются.

Что писать в файл robots.txt Общий вид

User-agent: *
Disallow:

Для Яндекса добавьте host для сайта

User-agent: Yandex
Disallow:
Host: myhost.com
В общем читается инструкция как, разрешить всем роботам (Яндексу) индексировать весь сайт ( для Яндекса – основной сайт myhost.com) Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы хотите.
Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами

User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт

User-agent: *
Disallow:

Закрыть от индексации только несколько каталогов

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Запретить индексацию сайта только для одного робота

User-agent: Yandex
Disallow: /
НЕВЕРНО

User-agent: *
Host:www.myhost.com

- отсутствует Disallow:
User-agent: *
Disallow:

User-agent: Yandex
Disallow:
Host: myhost.com

как выяснилось такое расположение инструкций для Яндекса так же неверно, при таком расположении бот пробрасывает инструкции относящиеся к нему. Надо писать-

User-agent: Yandex
Disallow:
Host: myhost.com

User-agent: *
Disallow:

Регулярные выражения и символы подстановки так же нельзя использовать.
«Звездочка» (*) в инструкции User-agent означает «любой робот».
Инструкции вида «Disallow: *.gif» или «User-agent: Ya*” не
поддерживаются.

Каждая инструкция пишется на одной строке без переносов.
Для каждого файла или папки вписываемой в роботс должна быть своя инструкция ( коллективные не обрабатываются).

1 Отзыв на “Про сайт и robots.txt”
  1. 1От wolf 13 Jan 2008 | Ответить

    Я тоже так думаю )))

Извините, но коментирование запрещено.

Коротко о сайте.

Блог meganfoxstar.ru поможет вам в Установке и настройке cms Vamshop, PHPProBid, Esyndicat, закрепит и расширит имеющиеся знания. Создание сайтов, продвижение сайтов, оптимизация информации. Теория и практика seo. CSS-верстка, веб-мастеринг, интернет-технологии, манимейкинги – все это и намного больше вы сможете найти на страницах нашего проекта!.

Основной        Дополнит         Twitter
RSS фид основной    RSS фид дополнительный    Всего Фолловеров блога
1006
RSSПодписка на обновления по RSS

Обновления блога по почтеОбновления блога на почтовый ящик