Робот Рамблера не сканирует все страницы

S

0

shporada

14 января 2002, 12:23

1733

Робот Рамблера отсканировал только заглавную страницу на http://shpora-da.narod.ru/

Что делать?

1183

wolf

14 января 2002, 15:26

#1

Ждать и надеяться, как это ни банально

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

D

11

dbc

15 января 2002, 15:21

#2

два варианта:

1. ждать пока рамблер запустит spyderа на новые сайты. Но я так понимаю этого не было месяцев 5 минимум.

2. ручками прописать ему страницы сайта

V

24

vs

19 января 2002, 01:12

#3

Originally posted by dbc:
два варианта:
1. ждать пока рамблер запустит spyderа на новые сайты. Но я так понимаю этого не было месяцев 5 минимум.
2. ручками прописать ему страницы сайта

1. Вы не правы. Мы сейчас обновляем индексы раз в месяц. В наших списках действительно есть еще новые сайты, на которые робот должен был сходить в декабре, а еще не дошел, но таких немного - несколько сотен.

2. Да, это в некоторых случаях помогает

С уважнием,

Влад Шабанов

[This message has been edited by vs (edited 18-01-2002).]

С уважением, Влад Шабанов vs@rambler-co.ru

482

Sergey Petrenko

19 января 2002, 01:26

#4

Влад, а по ссылкам робот ходить собирается? Или вытаскивать запылившийся уже автосабмиттер AiK`а?

V

24

vs

19 января 2002, 18:36

#5

Originally posted by Gray:
Влад, а по ссылкам робот ходить собирается?
Или вытаскивать запылившийся уже автосабмиттер
AiK`а?

По ссылкам робот ходит. По редиректам - тоже.

Для того, чтобы Рамблер прошелся по всему серверу достаточно сделать совсем немного вещей:

1) Скормить ему небольшое количество страниц, с которых в 1-2 клика видно все, что хочется заиндексировать. Сабмитить все страницы совсем не обязательно.

2) Постараться, чтобы среди страниц не было "мусора" - страниц, на которых только дизайн и нет никакого наполнения. Есть любители писать скрипты так, что если параметры неправильные, скрипт просто выдает дизайн (всякие рамки, навигацию и прочую беллетристику) и код 200 (успех). А потом на страницах своего же сайта кладут эти самые ссылки с непрвильными параметрами.

В результате наш робот бродит по одинаковм страницам, не содержащим ничего хорошего, а до нормальных текстов добирается очень нескоро.

3) Крайне желательно, чтобы URL были простыми и незамысловатыми. Пример: С точки зрения практически любого поисковика, URL

/foo/bar/xxx.yyy?a=1&b=2&c=3

,

/foo/bar/xxx.yyy?b=2&c=3&a=1

и

/foo/bar/xxx.yyy?b=2&c=3

совсем разные вещи, хотя обычно скрипты разбирают параметры независимо от порядка и с учетом default значений для тех параметров, которые в QUERY_STRING отсутствуют.

Соответственно, на этапе выкачки оказывается, что мы накачали 100 тыс. ссылок, из которых на самом деле уникальных - 2 тыс, а остальное - вариации перестановок параметров, добавление случайных чисел (session id и прочая дрянь) и т. д.

Теперь представьте себе, что список страниц для какого-то сервера внезапно распух с 10 киолбайт до пары мегабайт. Туда обычно лезет человек и начинает "тюкать топором".

Так что, постарайтесь, чтобы элементы URI всегда были в некотором каноническом порядке, а если параметр равен своему default значению, то чтоб его не было (ну, или наоборот, всегда был).

4) Последнее, что хотел сказать - не обижайте наших роботов. Не подсовывайте им специальных страниц, которые ничего общего не имеют с тем, что видят пользователи. Если сайт попал в стоп-лист, его оттуда потом никакая из автоматич. процедур не достанет, а вся информация о сайте удаляется.

С уважением,

Влад Шабанов

482

Sergey Petrenko

19 января 2002, 19:09

#6

Да я, в общем-то, давно уже подсунул ему следующую страницу

откуда в два клика видна любая страница форума.

Вот только эффекта не наблюдаю.

VT

130

Vyacheslav Tikhonov

19 января 2002, 19:54

#7

Originally posted by vs:
2) Постараться, чтобы среди страниц не было "мусора" - страниц, на которых только дизайн и нет никакого наполнения. Есть любители писать скрипты так, что если параметры неправильные, скрипт просто выдает дизайн (всякие рамки, навигацию и прочую беллетристику) и код 200 (успех). А потом на страницах своего же сайта кладут эти самые ссылки с непрвильными параметрами.
В результате наш робот бродит по одинаковм страницам, не содержащим ничего хорошего, а до нормальных текстов добирается очень нескоро.

А разве ценность текста на отдельной странице никак не оценивается? Например, посчитать количество семантических связей между словами и среднюю длину предложения. У вас же вроде нормальная морфология.

3) Крайне желательно, чтобы URL были простыми и незамысловатыми. Пример: С точки зрения практически любого поисковика, URL

/foo/bar/xxx.yyy?a=1&b=2&c=3
,
/foo/bar/xxx.yyy?b=2&c=3&a=1
и
/foo/bar/xxx.yyy?b=2&c=3

совсем разные вещи, хотя обычно скрипты разбирают параметры независимо от порядка и с учетом default значений для тех параметров, которые в QUERY_STRING отсутствуют.
Соответственно, на этапе выкачки оказывается, что мы накачали 100 тыс. ссылок, из которых на самом деле уникальных - 2 тыс, а остальное - вариации перестановок параметров, добавление случайных чисел (session id и прочая дрянь) и т. д.

Вообще это утверждение немного удивляет. Разделяйте в линке скрипт и его параметры и обрабатывайте соответствующим образом. Сходу могу посоветовать что-то вроде этого:

$url="/foo/bar/xxx.yyy?b=2&c=3";
if ($url=~/^(\S+)?\?(\S+)/)
{
my $scriptroot=$1;
my $parstr=$2;
my @par=split(/\&/,$parstr);
my @sortpar=sort @par;
print "$scriptroot\n @par\n @sortpar";
};

В @sortpar всегда будет одна и та последовательность параметров и не нужно будет ходить лишний раз по ссылкам при перестановках параметров.

[This message has been edited by Vyacheslav Tikhonov (edited 19-01-2002).]

V

24

vs

20 января 2002, 00:03

#8

Originally posted by Vyacheslav Tikhonov:
Вообще это утверждение немного удивляет. Разделяйте в линке скрипт и его параметры и обрабатывайте соответствующим образом. Сходу могу посоветовать что-то вроде этого:

К сожалению, есть много примеров, когда это не работает. Причем не всегда на живых серверах можно эксперименты ставить (пересортировать, скачать заново и сравнить) - бывает даже, что они от этого ломаются. То же самое касается необязательных параметров.

Кстати, а что Вы будете делать с теми, кто динамику маскирует? Когда нету символа '?' в URL.

Что же касается анализа полезности, то на лету его делать очень сложно - нужно ведь совокупность страниц сервера анализировать. А качаем мы параллельно очень много серверов. Поэтому робот качает все подряд, а потом уже другие программы клеят дубли, выкидывают явный мусор и т. д.

Так что, на сегодняшний момент, чем аккуратнее написан web-сайт, тем лучше мы его будем индексировать.

Действительно было бы неплохо, если бы сам разработчик сортировал аргументы скрипта на своих страницах (при условии, конечно, что он будет следить за результатом, тестировать ссылки и т. д.).

С уважением,

Влад

V

24

vs

20 января 2002, 00:29

#9

Originally posted by Gray:
Да я, в общем-то, давно уже подсунул ему следующую страницу
откуда в два клика видна любая страница форума.
Вот только эффекта не наблюдаю.

В базе Рамблера этот URL отсутствует.

Вы его подали на регистрацию год назад, 29.01.2001-10:50:44

Почему его нет в базе, разбираться долго, надо логи за год поднимать. Возможно, на момент скачивания (где нибудь в феврале прошлого года) сервер не ответил, или еще что-нибудь.

Сейчас пауку известны 54 URL с Вашего сервера. Сабмиты ссылок (addsite.cgi) были в январе прошлого года (14 штук), потом в феврале (2 штуки), потом в ноябре, но в ноябре Вы подавали исключительно динамику .php, которую наш робот пока не ест.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 19-01-2002).]

482

Sergey Petrenko

20 января 2002, 00:47

#10

Понятно. Постараемся закинуть еще раз.

Что делать, если ваша email-рассылка попала в спам

Яндекс Вебмастер вынес товарные фиды в отдельный раздел