CRAWLER WEBALTA

12 3
romanov
На сайте с 13.01.2005
Offline
145
2602

Алексей просил запостить, читать внизу причины...

В связи с жалобами, что на наш краулер сыплются жалобы от администраторов многих сайтов и что он вообще трактуется спецами из Яндекса и Рамбдера как DoS машина,
я провёл расследование - как часто мы дёргаем документы с сайта. Теперь краулер каждый сутки лбёт лог - кого и с какой частотой он дёргал (потомя думаю это можнобудет отключить). Вот что получилось (верхушки списков отсортированного по частоте обращения к сайтам со всех краулеров):



Minimal interval: 9
Maximal rate: 5.000000
Average rate: 2.561000
Site Maxmal rate Average rate Requests Minimal interval
--------------------------------------------------------------------------------
istel.ru 5.000000 2.643295 3016 10
hoteldiscount.lv 5.000000 2.643295 3016 10
f1news.ru 5.000000 2.640981 3016 10
wonet.ru 5.000000 2.638670 3016 10
myusenet.ru 5.000000 2.647937 3016 11
Minimal interval: 9
Maximal rate: 5.000000
Average rate: 2.482263
Site Maxmal rate Average rate Requests Minimal interval
--------------------------------------------------------------------------------
theleenolin.org 5.000000 2.553339 2944 10
psyonline.ru 5.000000 2.557776 2944 10
1september.ru 5.000000 2.546713 2944 9
astrocentr.ru 5.000000 2.548918 2944 9
samarskie.ru 5.000000 2.553339 2944 10
Minimal interval: 9
Maximal rate: 6.000000
Average rate: 2.463364
Site Maxmal rate Average rate Requests Minimal interval
--------------------------------------------------------------------------------
progames.ru 6.000000 2.521891 2880 9
netpolitics.ru 6.000000 2.526316 2880 9
aeuro.net.ru 6.000000 2.524102 2880 9
best-forex-info.spb.ru 6.000000 2.524102 2880 9
hock.ru 6.000000 2.521891 2880 9
Minimal interval: 7
Maximal rate: 6.000000
Average rate: 2.822761
Site Maxmal rate Average rate Requests Minimal interval
--------------------------------------------------------------------------------
seainmoregold.msk.ru 6.000000 2.905660 3388 8
zelinfo.info 6.000000 2.920690 3388 7
garants.net 6.000000 2.928263 3388 7
unesco.ru 6.000000 2.908155 3388 7
presstorg.ru 6.000000 2.918174 3388 9
Minimal interval: 10
Maximal rate: 5.000000
Average rate: 2.538387
Site Maxmal rate Average rate Requests Minimal interval
--------------------------------------------------------------------------------
mozart.net.ru 5.000000 2.565102 2896 11
igorvasin.ru 5.000000 2.558304 2896 11
mp3d.kh.ua 5.000000 2.571936 2896 11
sms4fun.ru 5.000000 2.576512 2896 11
pinkglas.info 5.000000 2.567376 2896 11
Minimal interval: 8
Maximal rate: 5.000000
Average rate: 2.684360
Site Maxmal rate Average rate Requests Minimal interval
--------------------------------------------------------------------------------
daewooclub.ru 5.000000 2.781739 3199 9
ostaqo.msk.ru 5.000000 2.769697 3199 10
medroxyprogesterone.net.ru 5.000000 2.769697 3199 10
tnk.ua 5.000000 2.779322 3199 9
accessories2.com.ru 5.000000 2.776910 3199 9
Minimal interval: 8
Maximal rate: 6.000000
Average rate: 2.827703
Site Maxmal rate Average rate Requests Minimal interval
--------------------------------------------------------------------------------
nebomusic.ru 6.000000 2.920690 3388 9
infobilet.ru 6.000000 2.913156 3388 10
nextradio.ru 6.000000 2.920690 3388 10
degterev.ru 6.000000 2.928263 3388 9
bandb.ru 6.000000 2.923210 3388 10
Minimal interval: 9
Maximal rate: 5.000000
Average rate: 2.560884
Site Maxmal rate Average rate Requests Minimal interval
--------------------------------------------------------------------------------
newtimes.ru 5.000000 2.600178 2920 9
zapaska.ru 5.000000 2.595556 2920 11
nato.int 5.000000 2.597865 2920 11
oil-net.net 5.000000 2.600178 2920 10
darkvirus.ru 5.000000 2.597865 2920 10
Minimal interval: 8
Maximal rate: 6.000000
Average rate: 2.848499
Site Maxmal rate Average rate Requests Minimal interval
--------------------------------------------------------------------------------
kubannet.ru 6.000000 2.901961 3256 8
bytavuha.ru 6.000000 2.909741 3256 8
ultra-online.ru 6.000000 2.917563 3256 8
apn.ru 6.000000 2.917563 3256 8
mvrick.ru 6.000000 2.886525 3256 8


Т.е. отсюда видно, что мы дёргаем сайт не чаще чем 6 раз в минуту (а в среднем гораздо реже).
Я считаю что загрузка документов с 10 секундным интервалом вряд ли может рассматриваться как DoS атака.
А осуществлять закачку с каждого сайта в соотвествии с минимальным интервалом запроса указанным в robots.txt мне кажется перебором - тогда надо либо основательно менять логику загрузки, либо большинство потоков у нас будет просто простаивать.




Если у кого-то есть аккаунт на форуме грея, постаните туда, а то я свой потерял, а восстанавливать лень. Спасибо!
зарабатываейте с нами (http://www.seowizard.ru/r.54b8561c00.php)
Astaldo
На сайте с 28.01.2006
Offline
174
#1

Они, просто, озверели, пол рунета силит на лимитном трафике!

Live as if you were to die tomorrow. Learn as if you were to live forever. Mahatma Gandhi
SZ
На сайте с 17.08.2005
Offline
63
#2

Не, вебальтовцы молодцы. Было время, бот доставлял проблемы, сейчас у меня по сайтам чаще одного запроса в минуту не бывает.

Притом, что яндекс наоборот озверел как-то. На днях по три запроса в две секунды на сайт отправлял. А так ставильно каждуюу секунду-две по запросу. Но тут и им можно плюс поставить - все такие жесткие проходы по сайтам наблюдаются лишь по ночам =)

K
На сайте с 31.01.2001
Offline
737
#3

Ну что сказать, если исправили - молодцы!

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
Revan
На сайте с 09.09.2005
Offline
321
#4
Astaldo:
Они, просто, озверели, пол рунета силит на лимитном трафике!

Давайте рассмотрим ситуацию:

У Вебальты политика переиндексировать рунет в две недели.

Они сделали так чтобы сервера не падали.

Если вас не устраивает такая политика - вы их баните. Разве не логично?

Обидно было, когда такая политика устраивала, но было не удержать сервер. А с трафиком надо решить - важнее люди с Вебальты или траф. Или одно из двух. :)

С уважением, Реван.

С уважением, Прокофьев Александр, founder KudaGo.com (http://kudago.com). Отдаем информацию обо всех мероприятиях в РФ + Киев по API (/ru/forum/912869) всем желающим.
The WishMaster
На сайте с 29.09.2005
Offline
2542
#5

А нафига, если не секрет, дергать сайт 6 раз в минуту?

Кому старенького креативного копирайтера? Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)
A
На сайте с 02.09.2006
Offline
148
#6

Вебальта сидит на сайте целый день.. Канешна пусть себе сидит, и вроде интервал минута/полторы, но вот хотелось бы узнать, откуда она берет линки типа: .../archive/1913/10/01

Может у кого-то и есть сайты со столь солидной историей, но у меня точно нет архивов за 1913 год :) как и страниц с подобными адресами. Т.е. бот методично индексирует архивы/страницы за 1900-е годы, которых никогда не было и нет.

i73
На сайте с 08.03.2006
Offline
188
i73
#7

это из паралельных миров... :)

D
На сайте с 20.05.2001
Offline
311
#8

Ambrozo, Это хитрая логика поиска контента на который никто не ссылается. Такое не только они делают.

A
На сайте с 02.09.2006
Offline
148
#9
Drow:
Ambrozo, Это хитрая логика поиска контента на который никто не ссылается. Такое не только они делают.

Заметил эту фигню от вебальты на двух сайтах, но по другим ботам ничего подобного не наблюдалось...

Sculptor
На сайте с 11.06.2005
Offline
179
#10
Ambrozo:
но вот хотелось бы узнать, откуда она берет линки типа: .../archive/1913/10/01
Может у кого-то и есть сайты со столь солидной историей, но у меня точно нет архивов за 1913 год :) как и страниц с подобными адресами. Т.е. бот методично индексирует архивы/страницы за 1900-е годы, которых никогда не было и нет.

Да просто мало кто знает, что рунет существовал в России еще до революции. Разработанный гениальным Поповым вместе с радио, интернет в то время по ряду политических причин был доступен только узкому кругу дворян и царской семье. Впоследствии, именно из-за попытки Западом завладеть российской технологией интернета были развязаны февральская революция, 1-я, а затем и 2-я мировые войны.

Но коммунистический режим твердо хранил стратегический секрет интернет-технологий, расчитывая и готовясь к концу XX века взорвать информационное пространство планеты внедрением повсеместного социалистического контента. Внутри локальной сети, не выходящей за границы Кремля, разрабатывались информационные социалистические порталы, на языках всего мира призывавшие к мировой революции и установлению всемирного социализма. Именно, советские серверы расчитывали пятилетние планы, создавали полный коплекс расчетов по управлению плановой экономикой страны.

К сожалению, низкая заработная плата советских сисадминов позволила в начале 80-х проникнуть в локальную сеть Кремля американскому вирусу "perestroyka". Вирусу, в течение нескольких лет, незаметно удалось взять всю информационную сеть советского рунета под свой контроль. Несмотря на все попытки советских сисадминов поставить обновления и заплатки, 19 августа 1991 года сеть серверов USSR (United Servers of Soviet Republics) полностью рухнула. Все секреты советского рунета были проданы в Америку. И только остатки оборудования были спасены группой советских офицеров КГБ под кодовым названием "Яндекс".

И, вот, через несколько лет...

Вот, а выговорите "страницы за 1900-е годы, которых никогда не было и нет". У кого-то не было, а у кого-то...

Но сейчас об этом помнят только старые вебмастера-пенсионеры, после многих лет социалистического реализма в рунете, так и не сумевшие в основном приспособится к коммерческому сектору интернета...

🚬 🚬 🚬

Дорого куплю ссылки со строительных сайтов, не находящихся в биржах и не продающие ссылки.
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий