груз индексации

MD
На сайте с 27.05.2001
Offline
5
818

Давайте лучше поговорим о том, как наши серверы переносят нашествия ботов.

Сразу оговорюсь - речь о контент-проектах.

Предположим, у нас есть много-много информации и к нам повадились краулеры. Насколько тяжело приходится при этом нашим серверам.

На мой взгляд, некоторые поисковые машины совсем не думают, легко ли придётся серверам от их нашествия. Во-первых, странно, что почти никто не использует HTTP 1.1, при этом только Googlebot ходит с надора из 256 IP адресов, остальные - с одного. В итоге - persistant коннекция и сервер отжирает кучу системных ресурсов.

Самым вероломным поисковиком, на мой взгяд, является NSearch от ASearch. Он уходит только тогда, когда выкачает всё, никаких ограничений по частоте запросов нет, добавьте к этому плохую связь с Украиной.

Наиболее гуманным выглядит Google. К сказанному о нём добавлю, что, как и у большинства других поисковиков, имеется ограничение на настоту запросов.

Интересно поступает Yandex, он качает, как и NSearch, без перерыва всё, но только связь получше, кроме того, у него стоит ограничение на максимальное время пребывания на сайте, что несколько облегчает жизнь, но порождает справедливый вопрос - а успевает ли он за обновлением сайтов? (Например, на http://hash.dorms.spbu.ru/mathmag/, где зеркалируется ряд эхо-конференций, Yandex явно не поспевает.)

Рамблера мы вообще в глаза не видим. Боюсь показаться смешным, но возникает предположение, что в его базе, как и в его рейтинге, только заглавные страницы :))

А как у вас?

С уважением,Mashiah Davidson
[Удален]
#1

не знаю, как серверу, он в америке где-то стоит, а мне лично эти ползающие мишают лог-фаил разбирать.

гугл.

наехал 20-ю ботами одновременно. вот уже вторые сутки индексирует... всю статистику мне за$рал, образно выражаясь.

и главное, его не смущает, что около половины ссылок - 404

яндекс заходил как-то по чуть-чуть.

в день по пару страничек. каждый день. месяца два так точно ходит.

(ещё один момент по яндексу. он пытается проиндексировать те странички, на которые были ссылки оч. давно, а сейчас ни ссылок ни страничек таких нет, а яндекс всё щемится туда.)

остальные...

ФАСТ по несколько за раз тоже делает.

АВ вообще не хочет индексировать то, что не засабмитишь руками.

MD
На сайте с 27.05.2001
Offline
5
#2

Что касается Яндекса, то у него два бота. Один ходит каждый день и берёт 1 - 2 файла, наверное проверяет работоспособность. Второй же - приходит часа на 3 - 6.

K
На сайте с 22.11.2000
Offline
42
#3

<font face="Verdana" size="2">Originally posted by Mashiah Davidson:
Рамблера мы вообще в глаза не видим. Боюсь показаться смешным, но возникает предположение, что в его базе, как и в его рейтинге, только заглавные страницы )
</font>

Ну как же... зайди в Рамблер и набери что-нибудь. Там будет ссылка "все документы с этого сайта". Сделай то же самое в Яндексе. Вот я тут из интереса проделала и получилось, что в Рамблее 10 страниц с сайта, а в Яндексе - 978, а в Апорте - 82...

Но разницы в приходах с этих поисковиков такой большой нет (для того конкретного сайта). Это наводит на размышления...

[This message has been edited by katya (edited 01-06-2001).]

katya
N
На сайте с 08.03.2001
Offline
22
#4

<font face="Verdana" size="2">Originally posted by Mashiah Davidson:
Что касается Яндекса, то у него два бота. Один ходит каждый день и берёт 1 - 2 файла, наверное проверяет работоспособность. Второй же - приходит часа на 3 - 6.</font>

По поводу Яндекса не соглашусь, конечно переодичность не засекал, но наблюдал на сразу несколько ботов одновременно и поочередно сменяющихся (&gt;5 точно!).

А вот что касается Рамблера так он точно одного IP наваливается и не заметить его индексацию сложно.

Николай
N
На сайте с 08.03.2001
Offline
22
#5

Меня сегодня top100.rambler.ru по всем прокси-портам просканил! Красота..

MD
На сайте с 27.05.2001
Offline
5
#6

<font face="Verdana" size="2">Originally posted by Nicholas:
По поводу Яндекса не соглашусь, конечно переодичность не засекал, но наблюдал на сразу несколько ботов одновременно и поочередно сменяющихся (&gt;5 точно!).
А вот что касается Рамблера так он точно одного IP наваливается и не заметить его индексацию сложно.
</font>

А у меня один и так уже три месяца, заходов 10, его IP - 213.180.194.148

А какие ещё?

N
На сайте с 08.03.2001
Offline
22
#7

<font face="Verdana" size="2">Originally posted by Mashiah Davidson:
А у меня один и так уже три месяца, заходов 10, его IP - 213.180.194.148
А какие ещё?
</font>

Может после последних переделок что-то и с я-ботами изменилсь, но сейчас только одного видно: big-yus.yandex.ru (*.166).

MD
На сайте с 27.05.2001
Offline
5
#8

Кажется, я понимаю, в чём тут дело, ведь Вы, наверняка в Москве, а я в Питере. Впрочем, возможно у них каталогами и субдоменами занимаются иначе, чем доменами третьего уровня.

N
На сайте с 08.03.2001
Offline
22
#9

<font face="Verdana" size="2">Originally posted by Mashiah Davidson:
Впрочем, возможно у них каталогами и субдоменами занимаются иначе, чем доменами третьего уровня.</font>

надеюсь что различия есть!

Раньше кстати наблюдал .148;.158;.152;и .153!

[This message has been edited by Nicholas (edited 03-06-2001).]

R2
На сайте с 11.02.2001
Offline
7
#10

Поведение яндекса вообще довольно странно поменялось, судя по логам моего сайта...

если раньше приходил один -- slovo.yandex.ru -- и просматривал довольно много документов (более 150, к примеру),

то в последнее время -- приходят несколько -- fert, izhitsa и другие церковнославянские буквы -- и просматривают по 3-6 документов...

правда, за последнюю неделю логи не смотрел еще...

C уважением,Роман.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий