Робот Рамблера не сканирует все страницы

shporada · 2002-01-14T12:23:00.0000000Z

Робот Рамблера отсканировал только заглавную страницу на http://shpora-da.narod.ru/ Что делать?

482

Sergey Petrenko

20 января 2002, 00:56

#11

Только еще один вопрос, Влад - если я натравлю на эту и другие страницы робота, который выберет из них ссылки и зашлет в базу? Хотелось бы уменьшить время прохода по ссылкам.

V

24

vs

20 января 2002, 01:13

#12

Originally posted by Gray:
Только еще один вопрос, Влад - если я натравлю на эту и другие страницы робота, который выберет из них ссылки и зашлет в базу? Хотелось бы уменьшить время прохода по ссылкам.

Пожалуй, достаточно поместить

....HTMLsummary/summarypage.html и все ....HTMLsummary/summaryNN.html, на которые она ссылается. Можно, конечно, и робота напустить, хуже не будет, только скачивание от этого не намного ускорится.

Влад

С уважением, Влад Шабанов vs@rambler-co.ru

VT

130

Vyacheslav Tikhonov

21 января 2002, 18:41

#13

Originally posted by vs:
К сожалению, есть много примеров, когда это не работает. Причем не всегда на живых серверах можно эксперименты ставить (пересортировать, скачать заново и сравнить) - бывает даже, что они от этого ломаются. То же самое касается необязательных параметров.
Кстати, а что Вы будете делать с теми, кто динамику маскирует? Когда нету символа '?' в URL.

Можно поставить ограничение на n-е количество страниц одного уровня вложенности. При этом в процессе сканирования можно подписывать весь документ хеш-функцией и, если параметры будут изменяться (как в Вашем примере), а контент будет прежний, сразу останавливать робота на сканируемом сайте. Конечно, будет медленнее, но зато качество повыше.

Что же касается анализа полезности, то на лету его делать очень сложно - нужно ведь совокупность страниц сервера анализировать.

Ну почему же? На лету, по идее, можно сразу разделять страницы на навигационные (как у Грея в предыдущем топике) и информационные. То есть сразу собирать карту сайта. А по карте можно попытаться и выделить самые важные страницы.

А качаем мы параллельно очень много серверов. Поэтому робот качает все подряд, а потом уже другие программы клеят дубли, выкидывают явный мусор и т. д.

Вообще не очень здорово сначала качать все подряд, а уже потом анализировать. Гораздо лучше наоборот, к примеру, как у IBM Almadden.

Планируется ли в будущем появление в Рамблере какой-либо модели поведения пользователя наподобие PageRank?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

24

vs

21 января 2002, 20:07

#14

Originally posted by Vyacheslav Tikhonov:
Вообще не очень здорово сначала качать все подряд, а уже потом анализировать. Гораздо лучше наоборот, к примеру, как у IBM Almadden.
Планируется ли в будущем появление в Рамблере какой-либо модели поведения пользователя наподобие PageRank?

Понимаете, Вячеслав, мы ведь этим очень давно занимается, на много граблей уже наступили. Идеи, о которых Вы говорите, конечно, интересны, разумны, но в случае больших объемов работают плохо. Или Вы будете иметь одну страшно дорогую железку, которая все время ломается, или придется разнести обработку на несколько узлов. А как только разнесете - сразу весь букет и получите. Например, у Вас перестанут клеится дубли, выкачанные разными узлами. Или еще что-нибудь.

Граф ссылок мы и сейчас строим, в наших внутренних версиях он используется в том числе и для ранжирования.

С уважением,

Влад

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что такое Power BI и зачем это нужно бизнесу