Да я бы понял такие спам-телодвижения, если бы тематика сайтов не была абсолютно разной. У меня не укладывается в голове как можно соотнести блог и казино? Или факультетский сайт и виагру? Или астрономический сайт и покер... Или может у меня башня недостаточно набок смотрит или я что-то упустил в этой жизни???
У меня спотыкается на страницах с редиректом (php, пример тут) и на страницах, требующих авторизацию (пример). Кроме того, HEAD запросы идут не через прокси, а GET через проксти => если у меня прямое подключение к сайту, то проверить не проблема, если необходимо ходить через проксю (сайт далеко или еще по какой причине), то болт :(
Ну почему же? Я к примеру практически только гуглем и пользуюсь...
Это смотря по каким словам искать...
Лично у меня на трех хостах складывается такая ситуация по первой пятерке:
1. Тематический сайт (довольно узкая специализация)
Rambler - 56.2 %
Google - 19.5 %
Yandex - 16.9 %
MSN - 5.4 %
Yahoo - 1.1 %
2. Корпоративный сайт (общего характера)
Yandex - 48.3 %
Rambler - 41.9 %
Google - 7.6 %
Yahoo - 0.7 %
MSN - 0.7 %
3. Корпоративный сайт (присутствует тематическая направленность)
Yandex - 55.3 %
Rambler - 27.2 %
Google - 12 %
DMOZ - 3 %
Yahoo - 1.4 %
Статистика подбивалась при помощи awstats (если нужно, то могу дать линки на полные данные по статистике)
crawler, spider, search engine => http://scholar.google.com
Исходники же лежат в свободном доступе - так соберите из них поисковик под виндой...
P.S. У нас по нескольким серверам ищет aspseek - вполне им довольны, когда-то пробовали mnogosearch - крайне не понравился, может сейчас лучше стал... Дубляж поиска при помощи старенького Yandex.Site (остался в качестве наследия от былых тестов)...
Спискок условий :)
Работать будет точно так же как и в случае с ошибкой (скрипты даже править не придется), но error-логи будут чистенькие...
В .htaccess
RewriteEngine On
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_FILENAME} !-s
RewriteCond %{REQUEST_FILENAME} !-l
RewriteRule ^(.+)$ /path/to/e404.script?REQUEST_URI=$1
Скачивать wget-ом несколько гигабайт? - глупо...
Ммм... распотрошил я странички на предмет ссылок - ок, но (!) там ссылки не только на этот сайт, но и на другие + картинки, pdf-ки, wrl-ки, co-ки и многое еще чего, что считать не нужно. Метод HEAD не всегда пролезет - контент большей частью динамический. По части ширины канала не беспокойтесь - до того, что я собрался обсчитывать канал 100 Mbps... Кстати, по части очередей - оптимизировать это дело никак нельзя?