Может там скачать фильмы, кинчики, порево или какие-нибудь голые проститутки Киева бисплатна без регисрации на втором сайте.
Так сразу и не скажешь. Чтобы узнать истину, нужно услышать правду от всех сторон.
Показывайте сайты, так яснее будет.
Значит это не имитация браузеров, браузерам роботс пофиг.
Зачем парсят - хз, конечно. Если форум англоязычный - есть предположения, но почти из области фантастики.
На тот случай если вдруг думали что движок прошерстили, поотключали что ненужно, но там что-то осталось.
Я бы попробовал рядом поставить свежеустановленный вордпресс с включенным суперкешем. Посмотрел бы скорость отдачи контента, и если она была бы норм, копал бы дальше глюки движка.
Просто маловероятно, что vps настолько тормознуто работает. Если конечно его не пытались криво тюнить в попытке оптимизировать нагрузку.
p.s. у меня к примеру есть акк FastVPS, начальный тариф: виртуализация OpenVZ, 100 мб оперативы, 300 с чем-то мегагерц, включенный суперкеш, nginx + fcgi (без Апача, память какбы жалко) - полет шустрый, разница с шаред хостингом на субъективный взгляд незаметна.
Наверное стоит в логи глянуть и сказать:
Картинки/аватары, css, .js боты качали?
Реферрер пустой?
Юзерагенты разные?
То что в роботсе запрещено, боты скачивают?
И будет примерно ясно, копию сайта хотели сделать, заддосить или какое-то статистическое исследование сделать. Или накрутить эти ваши какие-нибудь пф-ы.
Отмечусь тоже. Ну, это... сами всё поняли!
Как это не видели? Как каникулы, так сразу эти полуобезьяны... массово...
В летние каникулы теория Дарвина очень неплохо работает.
Не свое - не продвигай? А как же заказы? 🙄
Похоже на подкрутку алгоритмов АГС.
Есть сайтик, для эксперимента в который был засунут размноженный контент (объявления ), там гыгыгы некоммерческая тематика (была надежда что яндекс особенно такое любит) - слезливые истории типа нашли собачку ищем кому пристроить. Размножено на 1200 страниц, и примерно 50 страниц скан. Быстро влетело под АГС с 1-2 страницы в индексе (плясало). На сайт был забит болт. Сейчас, спустя месяцев 8, вдруг в индекс залезло 91 страница. Может, снова вылетит, посмотрим.
Нет, там сложней желательно сделать: многопоточную проверку - есть ли страница по ссылке в кеше или нет. Если нет - помечать (цветом, иконкой, фоном, видом курсора) недоступность ссылки.
2ТС - имхо в виде cgi-proxy севис сделать самое то. Ведь так универсальней будет. Просто серфить по кешу - обычный сервис.
А вот возможность восстановления сайтов из кеша с помощью телепорта какого-нибудь - можно сделать платной опцией (например, в бесплатной ограничение: недоступные ссылки как-нибудь стремно помечаются, чтобы нельзя было использовать в продакшене)
Имхо полезный был бы сервис, я бы пользовался.
arkadiy_a добавил 23.06.2011 в 01:45
Сеошникам, при ручном отборе доноров, учитывая среднебольничные цифры (ну например 99.5%) по доступности сайтов, временно лежащих сайтов в день пара-тройка набирается.
Чтобы не помечать себе "зайти позже на сайт", можно по кешу примерно понять, - насколько потенциальный донор похож на гс.