melkov

Рейтинг
57
Регистрация
25.01.2001
Должность
postgraduate student (DMMC), yandex.ru programmer
Интересы
search engine(s), 3d engines

wolf,

Т.е. запись без директивы Disallow некорректна и должна игнорироваться и, следовательно, запись

User-Agent: *
Host: www.myhost.ru

ничего не должна запрещать.

Яндекс реагирует так, как написано в help'е.

Разумеется, для робота, не использующего директиву Host, эта запись по любому ничего не запрещает. Поскольку про расширения в стандарте не написано, то данная трактовка файла robots.txt роботом Яндекса не нарушает стандарт.

Робот-зеркальщик, считает, видимо, по-другому (разные люди писали?) и главным назначил второстепенное зеркало www.othersite.ru, о чем и говорится при попытке добавить в индекс домен www.site.ru через форму http://webmaster.yandex.ru/

Случаев неправильной интерпретации зеркальщиком содержимого robots.txt пока не было.

К сожалению, периодически выясняется, что http://webmaster.yandex.ru/ использует заметно устаревшую базу зеркал ;)

uacommerce,

Ваши проблемы не имеют отношения к robots.txt и зеркалам.

Slc,

Служба поддержки тоже иногда ошибается. Вариант с пустым Disallow идентичен варианту без него.

Вообще, не требуйте особенно много от службы поддержки, там ведь тоже люди.

Cherny,

Известно ведь, что Googlebot полагает секцию с директивой Host: неправильно оформленной и игнорирует ее.

Если Вы правы, то это печально, т.к. получается, что Google тоже потихоньку нарушает стандарт (Unrecognised headers are ignored.). Надеюсь, что это все-таки не совсем так.

Seliger,

http://cards.yandex.ru/robots.txt тоже люди писали.

Гуглю запрещает индексировать swf, Яндексу - нет (т.к. для Яндекса работает только *.swf без слэша, т.е.

Disallow: *.swf

).

chistka.net

Все сайты в группе зеркал зарегистрированы через регистратора BULKREGISTER.

Если домен не оплачен вовремя, эти сволочи с кодом 200 отдают какую-то гадость, см. например:

www.2004uswomensopen.com

Т.е. оплачивать домен надо тоже вовремя.

Sitepromo:
Получается - сделал сайт и разу нужно занести его в свой robots.txt, как главное зеркало сайта, причем неважно - есть у него зеркала или нет (просто на будущее, чтобы не склеили...)? Я правильно понял?

Это не помешает, хотя в данном случае, разумеется, не помогло бы.

BooBooKING, в данном случае это не поможет.

Адепт дал правильный совет.

Зеркала учитывались, учитываются и будут учитываться во всех трех случаях.


<body>
<noindex>ля-ля-ля</noindex>
ключевое слово
<noindex>ля-ля-ля-1</noindex>
</body>

Интересная идея :) Но все-таки "пользователь видит то, что не видит робот" и "пользователь не видит то, что видит робот", т.е. текста, по которому он попал на сайт - очень разные вещи.

Лучше тогда просто поставить ограничение на количество <noindex>'ов в документе.


возможно страница была проиндексирована раньше добавления файла Robots.txt... И еще вопрос, если страница запрещена к индексации файлом Robots.txt, но ее вносят вручную в Яндекс через yandex.ru/addurl.html, будет ли такая страница проиндексирована? Может тут именно такой случай?

В Addurl вроде бы есть ошибка, из-за которой выдается сообщение об успешном добавлении.

На самом деле такая страница проиндексирована не будет.

Если страница была проиндексирована раньше, чем была запрещена в robots.txt, то ее удаление из базы произойдет, строго говоря, через неопределенное время.

IMHO нормальный сисадмин присвоил бы на время переезда всем хостам сразу оба IP - старый и новый.

toxa, Вы ошиблись.

ДЖАЗЗ!

> Если хочешь уточню адрес. Тут много найдется желающих воздействовать.

Ей-богу, любое воздействие (как в "хорошем" смысле, вроде попытки соблазнить модератора каталога пивом/кофе/соком/..., так и в "плохом") может иметь и обратный эффект.

Часть народу яндексе, например, считает, что неплохо бы (даже, возможно, и с некоторым ущербом качеству поиска) вообще убрать замешивание каталога в результаты поиска, либо свести его эффект к минимуму. Пяток обоснований такого мнения Вы и сами можете без труда назвать.

Какое мнение победит в случае "воздействия", вполне можно догадаться.

MaxT,

на картиночный робот действуют и такие "заклинания":


User-Agent: *
Disallow: *.gif
Disallow: *.jpg

Но, если у Вас сайт не чувствителен к регистру (например, он на MS IIS), то придется перечислять все 8 (или 16, ...) вариантов для каждого расширения :)

Disallow: *.gif

Disallow: *.giF
Disallow: *.gIf
Disallow: *.gIF
Disallow: *.Gif
Disallow: *.GiF
Disallow: *.GIf
Disallow: *.GIF

P.S.

Есть подозрение :), что и наш основной робот уже давно понимает такой синтаксис - это к слову о .doc, .pdf, etc.

Всего: 142