palladin_jedi

palladin_jedi
Рейтинг
71
Регистрация
13.07.2010
Должность
Web-developer
Ink-developer:
Параллельно запускаем оба скрипта через браузер, суть в имитации многопоточной записи/чтения.

Вот в этом участке ошибка. :)

Обычно такие процессы распараллеливают, чтобы они друг другу не мешали.

burunduk:
http://www.google.ru/search?q=%22%D0...r=&safe=images

К чему это?

Из-за того, что Jquery генерится?

Не найдено ни одного документа, соответствующего запросу "действует на Российском рынке с 2003 года" site:www.allave.ru.

Тогда как вы объясните вот это?

Грубо говоря - индексируемость фейсбука, который весь на аяксе.

В общем, я предлагаю провести эксперимент:

- Берём проиндексированый гуглом сайт.

- Кладём какой-то "грязный" js-файл

- Обфусцируем его

- Закрываем его в роботсе

- Ждём результата.

Если понизится в выдаче по какой-либо причине или на сайт накладываются санкции - делимся результатом.

burunduk:
т.е вы желаете сказать, что при обращении к странице с user-agent бота пс, найдя на странице подключаемый js робот автоматически меняет IP user-agent и обращается к закрытой от индексации папке?
нет таких обращений в логах!
как и нет обращений напрямую к папке без обращения к странице, так же нет повторных скачиваний закрытых файлов при внутренних переходах, т.к. всё уже есть в кеше браузера

Нет, я хочу сказать, что боты поисковых систем иногда маскируются под браузеры. Где вы видели чтобы я выше писал про автоматическую смену IP?

P.S. Статья выше - как раз в тему.

burunduk:
робот пс не эмулирует работу браузера, а просто забирает код отдаваемый сервером

Обычный бот - конечно не будет, это было бы верхом расточительства ресурсов. А раз в недельку забегает толстобот, что ли. :) Он замечательно может пропарсить сайт с яваскриптом. Моё сугубое ИМХО.

burunduk:
замечательно, только я смотрю логи сервера - нет там обращений к данным папкам от пс, только от браузеров пользователей

Как вы отличаете ботов от пользователей? Уж не по полю ли user-agent? :)

burunduk:
выполнит код браузер, а не пс

ПС могут отлично эмулировать выполнение.

burunduk:
если папка просто закрыта от индексации в роботсе, они туда не полезут

Роботс для них не абсолютная директива. Попробуйте провести эксперимент: сделайте страницу-линкопомойку на сайте и запретите её в роботсе. Засеките время, через которое сайт существенно просядет в выдаче. Когда я так экспериментировал около двух лет назад у меня просел через две недели.

burunduk:
это далеко не всегда возможно, как пример подключается внешний js и из него вызываются данные для загрузки и какой файл разбирать?

Общий, который сгенерился в итоге.

Toy:
Вы ошибаетесь, Google прекрасно выполняет js.

Согласен.

Но выполняет он его не всегда, т.к. это действительно будет занимать порядочное количество ресурсов.

palladin_jedi добавил 27.09.2011 в 14:51

burunduk:
пс могут прочитать js файл находящийся на странице и даже разобрать его (не выполнить), но они его не исполняют, а если его (js) нет на странице?

"Разобрать" не строго равно "выполнить", согласен, но между ними грань довольно тонкая. ;)

Неужели боты не смогут разобрать инклюды на страницу и пропарсить файлы в папке сайта? Пропарсить не смогут только если жёстко запретить через htaccess внешний доступ к файлам...

По-моему - какой-то подобный скрипт я встречал как событие на onmouseover на body. Но это уже клоакинг.

Toy:
Я не силен в настройках сервера, об апаче знаю очень малое, но в nginx например множно в location /path/to/script.js сделать проверку user-agent и если это бот гугла, то deny.

Весь прикол во том, что поисковики иногда поставляют в поле User-Agent идентификаторы браузеров. Создатели поисковиков ведь не самые глупые люди, правда? ;)

alexxx_b:
А поподробней можно, что за очередь и как поправить.

Для начала нужно узнать что у вас за софт на сервере стоит, чтобы рекомендовать как поправить. Далее предположение о nginx:

С помощью nginx делают так называемую очередь запросов. Например, "чистый" апач легко повесить, если сделать, например 100 очень медленных запросов. Т.е. соединение устанавливается, каждые 30 секунд уходит пакет в несколько байт. Апач выделяет под такой процесс полное количество ресурсов и держит их в памяти все время соединения. Таким образом, апач забивает память на всякую муть и у него не остается ресурсов. Nginx выстраивает такие запросы в очередь и "отдает" их апачу в зависимости от активности, грубо говоря.

pegs:
не догоняю (может не в теме), это был стёб такой?

Нет, что вы, это серьёзное обсуждение серьёзного предложения доменного имени!

Да, все сообщения кроме первого и третьего в этом топике - стёб.

ТС, объявляй аукцион с нулевым стартом. Тогда, может быть, продашь. ;)

Всего: 1266