Робот Рамблера не сканирует все страницы

12
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#11

Только еще один вопрос, Влад - если я натравлю на эту и другие страницы робота, который выберет из них ссылки и зашлет в базу? Хотелось бы уменьшить время прохода по ссылкам.

V
На сайте с 20.06.2001
Offline
24
vs
#12

Originally posted by Gray:
Только еще один вопрос, Влад - если я натравлю на эту и другие страницы робота, который выберет из них ссылки и зашлет в базу? Хотелось бы уменьшить время прохода по ссылкам.

Пожалуй, достаточно поместить

....HTMLsummary/summarypage.html и все ....HTMLsummary/summaryNN.html, на которые она ссылается. Можно, конечно, и робота напустить, хуже не будет, только скачивание от этого не намного ускорится.

Влад

С уважением, Влад Шабанов vs@rambler-co.ru
VT
На сайте с 27.01.2001
Offline
130
#13

Originally posted by vs:
К сожалению, есть много примеров, когда это не работает. Причем не всегда на живых серверах можно эксперименты ставить (пересортировать, скачать заново и сравнить) - бывает даже, что они от этого ломаются. То же самое касается необязательных параметров.
Кстати, а что Вы будете делать с теми, кто динамику маскирует? Когда нету символа '?' в URL.

Можно поставить ограничение на n-е количество страниц одного уровня вложенности. При этом в процессе сканирования можно подписывать весь документ хеш-функцией и, если параметры будут изменяться (как в Вашем примере), а контент будет прежний, сразу останавливать робота на сканируемом сайте. Конечно, будет медленнее, но зато качество повыше.


Что же касается анализа полезности, то на лету его делать очень сложно - нужно ведь совокупность страниц сервера анализировать.

Ну почему же? На лету, по идее, можно сразу разделять страницы на навигационные (как у Грея в предыдущем топике) и информационные. То есть сразу собирать карту сайта. А по карте можно попытаться и выделить самые важные страницы.


А качаем мы параллельно очень много серверов. Поэтому робот качает все подряд, а потом уже другие программы клеят дубли, выкидывают явный мусор и т. д.

Вообще не очень здорово сначала качать все подряд, а уже потом анализировать. Гораздо лучше наоборот, к примеру, как у IBM Almadden.

Планируется ли в будущем появление в Рамблере какой-либо модели поведения пользователя наподобие PageRank?

V
На сайте с 20.06.2001
Offline
24
vs
#14

Originally posted by Vyacheslav Tikhonov:
Вообще не очень здорово сначала качать все подряд, а уже потом анализировать. Гораздо лучше наоборот, к примеру, как у IBM Almadden.
Планируется ли в будущем появление в Рамблере какой-либо модели поведения пользователя наподобие PageRank?

Понимаете, Вячеслав, мы ведь этим очень давно занимается, на много граблей уже наступили. Идеи, о которых Вы говорите, конечно, интересны, разумны, но в случае больших объемов работают плохо. Или Вы будете иметь одну страшно дорогую железку, которая все время ломается, или придется разнести обработку на несколько узлов. А как только разнесете - сразу весь букет и получите. Например, у Вас перестанут клеится дубли, выкачанные разными узлами. Или еще что-нибудь.

Граф ссылок мы и сейчас строим, в наших внутренних версиях он используется в том числе и для ранжирования.

С уважением,

Влад

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий