На сайте есть страница archive с соответствующим функционалом и поиском публикаций по годам - Bing, Rambler, Baidu, Yahoo

CRAWLER WEBALTA

romanov · 2006-08-30T11:32:12.0000000Z

Алексей просил запостить, читать внизу причины... В связи с жалобами, что на наш краулер сыплются жалобы от администраторов многих сайтов и что он вообще трактуется спецами из Яндекса и Рамбдера как DoS машина, я провёл расследование - как часто мы дёргаем документы с сайта. Теперь краулер каждый сутки лбёт лог - кого и с какой частотой он дёргал (потомя думаю это можнобудет отключить). Вот что получилось (верхушки списков отсортированного по частоте обращения к сайтам со всех краулеров): Minimal interval: 9 Maximal rate: 5.000000 Average rate: 2.561000 Site Maxmal rate Average rate Requests Minimal interval -------------------------------------------------------------------------------- istel.ru 5.000000 2.643295 3016 10 hoteldiscount.lv 5.000000 2.643295 3016 10 f1news.ru 5.000000 2.640981 3016 10 wonet.ru 5.000000 2.638670 3016 10 myusenet.ru 5.000000 2.647937 3016 11 Minimal interval: 9 Maximal rate: 5.000000 Average rate: 2.482263 Site Maxmal rate Average rate Requests Minimal interval -------------------------------------------------------------------------------- theleenolin.org 5.000000 2.553339 2944 10 psyonline.ru 5.000000 2.557776 2944 10 1september.ru 5.000000 2.546713 2944 9 astrocentr.ru 5.000000 2.548918 2944 9 samarskie.ru 5.000000 2.553339 2944 10 Minimal interval: 9 Maximal rate: 6.000000 Average rate: 2.463364 Site Maxmal rate Average rate Requests Minimal interval -------------------------------------------------------------------------------- progames.ru 6.000000 2.521891 2880 9 netpolitics.ru 6.000000 2.526316 2880 9 aeuro.net.ru 6.000000 2.524102 2880 9 best-forex-info.spb.ru 6.000000 2.524102 2880 9 hock.ru 6.000000 2.521891 2880 9 Minimal interval: 7 Maximal rate: 6.000000 Average rate: 2.822761 Site Maxmal rate Average rate Requests Minimal interval -------------------------------------------------------------------------------- seainmoregold.msk.ru 6.000000 2.905660 3388 8 zelinfo.info 6.000000 2.920690 3388 7 garants.net 6.000000 2.928263 3388 7 unesco.ru 6.000000 2.908155 3388 7 presstorg.ru 6.000000 2.918174 3388 9 Minimal interval: 10 Maximal rate: 5.000000 Average rate: 2.538387 Site Maxmal rate Average rate Requests Minimal interval -------------------------------------------------------------------------------- mozart.net.ru 5.000000 2.565102 2896 11 igorvasin.ru 5.000000 2.558304 2896 11 mp3d.kh.ua 5.000000 2.571936 2896 11 sms4fun.ru 5.000000 2.576512 2896 11 pinkglas.info 5.000000 2.567376 2896 11 Minimal interval: 8 Maximal rate: 5.000000 Average rate: 2.684360 Site Maxmal rate Average rate Requests Minimal interval -------------------------------------------------------------------------------- daewooclub.ru 5.000000 2.781739 3199 9 ostaqo.msk.ru 5.000000 2.769697 3199 10 medroxyprogesterone.net.ru 5.000000 2.769697 3199 10 tnk.ua 5.000000 2.779322 3199 9 accessories2.com.ru 5.000000 2.776910 3199 9 Minimal interval: 8 Maximal rate: 6.000000 Average rate: 2.827703 Site Maxmal rate Average rate Requests Minimal interval -------------------------------------------------------------------------------- nebomusic.ru 6.000000 2.920690 3388 9 infobilet.ru 6.000000 2.913156 3388 10 nextradio.ru 6.000000 2.920690 3388 10 degterev.ru 6.000000 2.928263 3388 9 bandb.ru 6.000000 2.923210 3388 10 Minimal interval: 9 Maximal rate: 5.000000 Average rate: 2.560884 Site Maxmal rate Average rate Requests Minimal interval -------------------------------------------------------------------------------- newtimes.ru 5.000000 2.600178 2920 9 zapaska.ru 5.000000 2.595556 2920 11 nato.int 5.000000 2.597865 2920 11 oil-net.net 5.000000 2.600178 2920 10 darkvirus.ru 5.000000 2.597865 2920 10 Minimal interval: 8 Maximal rate: 6.000000 Average rate: 2.848499 Site Maxmal rate Average rate Requests Minimal interval -------------------------------------------------------------------------------- kubannet.ru 6.000000 2.901961 3256 8 bytavuha.ru 6.000000 2.909741 3256 8 ultra-online.ru 6.000000 2.917563 3256 8 apn.ru 6.000000 2.917563 3256 8 mvrick.ru 6.000000 2.886525 3256 8 Т.е. отсюда видно, что мы дёргаем сайт не чаще чем 6 раз в минуту (а в среднем гораздо реже). Я считаю что загрузка документов с 10 секундным интервалом вряд ли может рассматриваться как DoS атака. А осуществлять закачку с каждого сайта в соотвествии с минимальным интервалом запроса указанным в robots.txt мне кажется перебором - тогда надо либо основательно менять логику загрузки, либо большинство потоков у нас будет просто простаивать. Если у кого-то есть аккаунт на форуме грея, постаните туда, а то я свой потерял, а восстанавливать лень. Спасибо!

404

Segey

2 сентября 2006, 23:52

#11

Ambrozo:
Может у кого-то и есть сайты со столь солидной историей, но у меня точно нет архивов за 1913 год

Какое это отношение имеет к архиву сайта за 1913 год?

Зато на сайте исторические данные такого плана могут быть запросто

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)

A

153

Ambrozo

3 сентября 2006, 04:19

#12

Sculptor, все это очень познавательно.. 🚬

Sculptor:
интернет в то время по ряду политических причин был доступен только узкому кругу дворян и царской семье

Но вот Хлебников писал про интернет, тем не менее :)

Segey,

Segey:
Какое это отношение имеет к архиву сайта за 1913 год?
Зато на сайте исторические данные такого плана могут быть запросто

Я не про то. И на сайте нет никаких "исторических данных такого плана".. Имеет прямое отношение, т.к. на сайте есть страница .../archive с соответствующим функционалом и поиском публикаций по годам/месяцам/числам, например страница .../archive/2006/08/01 конечно есть. Посмотрел код модуля, который генерит этот самый архив, но и там не обнаружил ничего, что бы могло производить такую возможность. А настырный альтовский бот сканит последовательно:

/archive/1969/03/01

|

/archive/1969/02/01

|

/archive/1969/01/01

|

/archive/1968/12/01

|

/archive/1968/11/01

|

/archive/1968/10/01

|

/archive/1968/09/01

|

/archive/1968/08/01

И т.п... Причем он уже двое суток не вылазит из этого "архива". Какой-то маразм.. :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

101

Xover

3 сентября 2006, 16:54

#13

/archive/1968/10/01

хм, ему на это конечно 404 вылазит?

Покупаю внутренние PR4 на sape.ru (http://www.sape.ru/r.f3cfb23480.php)

389

Ceres

3 сентября 2006, 17:00

#14

Причем он уже двое суток не вылазит из этого "архива". Какой-то маразм..

Ха-ха, да он там походу заблудится :) ему ведь еще сначала вернуться надо будет к рождению Христа, ну и в будущее заглянуть :)

Там чу-де-са! )

145

romanov

3 сентября 2006, 21:55

#15

/офф/

Ух, интереснный варниг (формулировка) мне за пост влепили.. Ндя...

Хочешь как лучше, а выходит как обычно...

зарабатываейте с нами (http://www.seowizard.ru/r.54b8561c00.php)

A

153

Ambrozo

3 сентября 2006, 22:23

#16

Xover:
/archive/1968/10/01

хм, ему на это конечно 404 вылазит?

Нет :) вот пример (фрагмент лога):

/archive/1928/05/01

Http Code: 200 Date: Sep 03 20:52:21

Referer: -

Agent: WebAlta Crawler/1.3.18 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)

Бот до сих пор сидит... Видимо, серьезно попал :) , ибо, судя по всему:

ему ведь еще сначала вернуться надо будет к рождению Христа, ну и в будущее заглянуть

х.з.

Обзор семинара Леонида Гроховского Обзор семинара Виталия Шаповала Обзор тренинга «Лояльные клиенты

D

115

Dlinnoux

4 сентября 2006, 05:40

#17

Sculptor,

офф

просто ужас. как они смогли это сделать, если лампочных транзисторов еще нет в эти времена и в помине?

/офф

321

Revan

4 сентября 2006, 05:46

#18

Кстати, тут согласен - бот Вебальты действительно профи по отыскиванию ХЗ каких страниц на сайтах.

С уважением, Прокофьев Александр, founder KudaGo.com (http://kudago.com). Отдаем информацию обо всех мероприятиях в РФ + Киев по API (/ru/forum/912869) всем желающим.

S

85

saman

5 сентября 2006, 06:20

#19

Ambrozo, помоему это проблема в вашем движке. У меня подобная ситуация была с DLE, когда я для него google sitemap создавал с помощью программ.

С уважением, Хорев Андрей (http://www.khorev.net/)

A

153

Ambrozo

5 сентября 2006, 06:37

#20

saman, вполне возможно, я пока не делаю выводов.. У нас друпал, Google sitemap не установлен, вроде все корректно работает, и архивный модуль никак не может выдавать линки старше 2000-х годов. Еще дело в том, что эта ерунда замечена только у вебальты, другие боты так себя не ведут :) Вчера она все-таки добралась до начала 1900-х, но дальше уже не пошла :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

CRAWLER WEBALTA