Вот в этом участке ошибка. :)
Обычно такие процессы распараллеливают, чтобы они друг другу не мешали.
К чему это?
Из-за того, что Jquery генерится?
Тогда как вы объясните вот это?
Грубо говоря - индексируемость фейсбука, который весь на аяксе.
В общем, я предлагаю провести эксперимент:
- Берём проиндексированый гуглом сайт.
- Кладём какой-то "грязный" js-файл
- Обфусцируем его
- Закрываем его в роботсе
- Ждём результата.
Если понизится в выдаче по какой-либо причине или на сайт накладываются санкции - делимся результатом.
Нет, я хочу сказать, что боты поисковых систем иногда маскируются под браузеры. Где вы видели чтобы я выше писал про автоматическую смену IP?
P.S. Статья выше - как раз в тему.
Обычный бот - конечно не будет, это было бы верхом расточительства ресурсов. А раз в недельку забегает толстобот, что ли. :) Он замечательно может пропарсить сайт с яваскриптом. Моё сугубое ИМХО.
Как вы отличаете ботов от пользователей? Уж не по полю ли user-agent? :)
ПС могут отлично эмулировать выполнение.
Роботс для них не абсолютная директива. Попробуйте провести эксперимент: сделайте страницу-линкопомойку на сайте и запретите её в роботсе. Засеките время, через которое сайт существенно просядет в выдаче. Когда я так экспериментировал около двух лет назад у меня просел через две недели.
Общий, который сгенерился в итоге.
Согласен.
Но выполняет он его не всегда, т.к. это действительно будет занимать порядочное количество ресурсов.
palladin_jedi добавил 27.09.2011 в 14:51
"Разобрать" не строго равно "выполнить", согласен, но между ними грань довольно тонкая. ;)
Неужели боты не смогут разобрать инклюды на страницу и пропарсить файлы в папке сайта? Пропарсить не смогут только если жёстко запретить через htaccess внешний доступ к файлам...
По-моему - какой-то подобный скрипт я встречал как событие на onmouseover на body. Но это уже клоакинг.
Весь прикол во том, что поисковики иногда поставляют в поле User-Agent идентификаторы браузеров. Создатели поисковиков ведь не самые глупые люди, правда? ;)
Для начала нужно узнать что у вас за софт на сервере стоит, чтобы рекомендовать как поправить. Далее предположение о nginx:
С помощью nginx делают так называемую очередь запросов. Например, "чистый" апач легко повесить, если сделать, например 100 очень медленных запросов. Т.е. соединение устанавливается, каждые 30 секунд уходит пакет в несколько байт. Апач выделяет под такой процесс полное количество ресурсов и держит их в памяти все время соединения. Таким образом, апач забивает память на всякую муть и у него не остается ресурсов. Nginx выстраивает такие запросы в очередь и "отдает" их апачу в зависимости от активности, грубо говоря.
Нет, что вы, это серьёзное обсуждение серьёзного предложения доменного имени!
Да, все сообщения кроме первого и третьего в этом топике - стёб.
ТС, объявляй аукцион с нулевым стартом. Тогда, может быть, продашь. ;)