AiK

AiK
Рейтинг
257
Регистрация
27.10.2000
Должность
SEO consultant
Интересы
Astronomy

Проверил. Фильтры для ящика, указанного в профайле отключены. Хостер, к слову, у нас один и тот же.

Печально. Потому как мне ничего не пришло. Все фильтры отключал. Пошёл смотреть а не включили ли их :(

Сергей только что отправил тестовое письмо, которое благополучно добралось до меня. Стало быть проблемы не у меня :)

Lupus, не радует тот факт, что уведомления тем не менее не приходят. Например, данный топик. Подписка включена, режим - моментальные уведомления. Если с вашей стороны всё путём, то наверное хостер включил без моего ведома фильтры.


Но все таки есть ли возможность задавать TimeOut для робота?

Нет, разумеется. А советы вам дельные дают. На PHP используйте в начале скрипта

 

ob_flush();
flush();

, на Perl -


$| = 1;

В этом случае бот будет получать не весь контент сразу, а частями, по мере поступления. Таймаут же на получение message body существенно больше, чем таймаут на ожидание ответа.

melkov, чтобы не беспокоило :), нужно создавать для робота Яндекса отдельную запись. Я об этом писал ещё когда Вы своё расширение протокола на обсуждение выкладывали. IMHO, было бы для всех лучше, если бы Вы в своих инструкциях не советовали ставить Host: для User-Agent:*.

Сергей, как раз в FireFox размер страницы 154.02 KB (157721 bytes)

А в качестве Source стоит Disk Cache. Очевидно потому, что распаковка идёт не на лету. Про тормоза говорить ничего не буду, их в основном украинские банерные сети создают :) Но вот то, что с выходных не приходят уведомления - факт.


Смешно. Человек с мозгами обойдёт это на раз.

Ладно, положительные действия и накрутить можно. А вот от отрицательных избавиться не удастся. Их всегда на дорвее будет больше, чем на обычном сайте. Особенно если стоит редирект или клоакинг- будет очень большое количество обращений к кэшу. Который в общем-то из без бара посмотреть можно - ссылка есть прямо в SERP. А отключение кэша - это явное привлечение к сайту повышенного внимания.


которые теретически не приносят в Интернет никакой новой оригинальной информации

Очень красивое, но бесполезное утверждение. Гугль не имеет человеческого интеллекта. Гостевые книги, которые очень часто вообще никакой информации не содержат, прекрасно существуют в выдаче. Да ещё и нередко обгоняют спамеров, которые кидают туда ссылки на свои дорвеи :) С оригинальностью тоже беда - очень часто при поисках решения программерских проблем доводится натыкаться в выдаче на один и тот же вопрос в разных mail архивах. Т.е. Гугль не в состоянии подавить дубликаты страниц, отличающиеся только оформлением. И уж, тем более, он не в состоянии подавить страницу, скомпилированную из двух-трёх источников. Пример - уже упоминавшийся выше about.com.

Я вообще не думаю, что Гугль ведёт борьбу с белой оптимизацией - его больше донимает спамдексинг. И применяет он, вероятнее всего, так любимые Советским Союзом "ассимметричные ответы". Если кто не знает, то одним из самых красивых "ответов" на развёртывание системы СОИ - вывод на орбиту контейнеров, начинённых болтами и гайками. Взрыв данного хозяйства на нужной орбите напрочь сметает всю группировку вражеских спутников :) Дёшево и сердито.

Разумеется, при таких ассимметричных ответах могут пострадать и соседи по орбите. В данном случае сайты, использующие серые методы.

В качестве "оружия" может использоваться гугльбар. Только не ретинг за и против, а набор каких-то действий. Например, просмотр кэша - действие против (не найдено то, что искалось или страница не доступна). Действие за - обращение за переводом страницы или проверка орфографии перед отправкой формы на сайт и т.д.

Кстати, новости я не читаю последнее время, так что для меня стало сюрпризом то, что вместе с winzip'ом распространяется нынче гугльбар и desktop search.


Если Вы правы, то это печально, т.к. получается, что Google тоже потихоньку нарушает стандарт (Unrecognised headers are ignored.). Надеюсь, что это все-таки не совсем так.

Подтверждаю. Гугль игнорирует запись. В протоколе не написано, что есть headers. Зато там написано, что

The record starts with one or more User-agent lines, followed by one or more Disallow lines, as detailed below. Вы считаете что header используется как синоним line. В гугле считают, что header есть синоним record.

Поскольку запись явно не подразумевает наличия строчек отличных от User-agent и Disallow, то использование директивы Host: в сочетании с User-agent: * является более очевидным нарушением правил составления robots.txt, чем игнорирование любым поисковиком подобной записи - нарушением протокола :)


Разумеется, для робота, не использующего директиву Host, эта запись по любому ничего не запрещает. Поскольку про расширения в стандарте не написано, то данная трактовка файла robots.txt роботом Яндекса не нарушает стандарт.

Трактовка-то может и не нарушает, а вот запись нарушает как приведённую мной цитату, так и цитату приведённую Сергеем:

At least one Disallow field needs to be present in a record.

Т.е. любителем пропускать строку Disallow дважды указали на неправомочность их действий :)

Всего: 3256