Комментарии - vs - Профиль вебмастера - Форум об интернет-маркетинге

Робот Рамблера не сканирует все страницы

20 января 2002, 00:03

Originally posted by Vyacheslav Tikhonov:
Вообще это утверждение немного удивляет. Разделяйте в линке скрипт и его параметры и обрабатывайте соответствующим образом. Сходу могу посоветовать что-то вроде этого:

К сожалению, есть много примеров, когда это не работает. Причем не всегда на живых серверах можно эксперименты ставить (пересортировать, скачать заново и сравнить) - бывает даже, что они от этого ломаются. То же самое касается необязательных параметров.

Кстати, а что Вы будете делать с теми, кто динамику маскирует? Когда нету символа '?' в URL.

Что же касается анализа полезности, то на лету его делать очень сложно - нужно ведь совокупность страниц сервера анализировать. А качаем мы параллельно очень много серверов. Поэтому робот качает все подряд, а потом уже другие программы клеят дубли, выкидывают явный мусор и т. д.

Так что, на сегодняшний момент, чем аккуратнее написан web-сайт, тем лучше мы его будем индексировать.

Действительно было бы неплохо, если бы сам разработчик сортировал аргументы скрипта на своих страницах (при условии, конечно, что он будет следить за результатом, тестировать ссылки и т. д.).

С уважением,

Влад

Клоак и редиректы

19 января 2002, 19:14

Originally posted by itman:
Слушайте, а ведь отличная идея "свалить" конкурентов.. Поставить на них редирект и тихонечко стукнуть на них Яндексу.

Знаете, в top100 часто пытаются накрутить конкурента, чтобы выкинуть его из рейтинга.

Но почему-то обещание познакомить их между собой (я имею в виду, того, чей ресурс накручивают, с тем, кто накручивает) очень хорошо вразумляет.

А информацию собрать для этого вполне можно

С уважением

Влад

Робот Рамблера не сканирует все страницы

19 января 2002, 18:36

Originally posted by Gray:
Влад, а по ссылкам робот ходить собирается?
Или вытаскивать запылившийся уже автосабмиттер
AiK`а?

По ссылкам робот ходит. По редиректам - тоже.

Для того, чтобы Рамблер прошелся по всему серверу достаточно сделать совсем немного вещей:

1) Скормить ему небольшое количество страниц, с которых в 1-2 клика видно все, что хочется заиндексировать. Сабмитить все страницы совсем не обязательно.

2) Постараться, чтобы среди страниц не было "мусора" - страниц, на которых только дизайн и нет никакого наполнения. Есть любители писать скрипты так, что если параметры неправильные, скрипт просто выдает дизайн (всякие рамки, навигацию и прочую беллетристику) и код 200 (успех). А потом на страницах своего же сайта кладут эти самые ссылки с непрвильными параметрами.

В результате наш робот бродит по одинаковм страницам, не содержащим ничего хорошего, а до нормальных текстов добирается очень нескоро.

3) Крайне желательно, чтобы URL были простыми и незамысловатыми. Пример: С точки зрения практически любого поисковика, URL

/foo/bar/xxx.yyy?a=1&b=2&c=3

,

/foo/bar/xxx.yyy?b=2&c=3&a=1

и

/foo/bar/xxx.yyy?b=2&c=3

совсем разные вещи, хотя обычно скрипты разбирают параметры независимо от порядка и с учетом default значений для тех параметров, которые в QUERY_STRING отсутствуют.

Соответственно, на этапе выкачки оказывается, что мы накачали 100 тыс. ссылок, из которых на самом деле уникальных - 2 тыс, а остальное - вариации перестановок параметров, добавление случайных чисел (session id и прочая дрянь) и т. д.

Теперь представьте себе, что список страниц для какого-то сервера внезапно распух с 10 киолбайт до пары мегабайт. Туда обычно лезет человек и начинает "тюкать топором".

Так что, постарайтесь, чтобы элементы URI всегда были в некотором каноническом порядке, а если параметр равен своему default значению, то чтоб его не было (ну, или наоборот, всегда был).

4) Последнее, что хотел сказать - не обижайте наших роботов. Не подсовывайте им специальных страниц, которые ничего общего не имеют с тем, что видят пользователи. Если сайт попал в стоп-лист, его оттуда потом никакая из автоматич. процедур не достанет, а вся информация о сайте удаляется.

С уважением,

Влад Шабанов

Робот Рамблера не сканирует все страницы

19 января 2002, 01:12

Originally posted by dbc:
два варианта:
1. ждать пока рамблер запустит spyderа на новые сайты. Но я так понимаю этого не было месяцев 5 минимум.
2. ручками прописать ему страницы сайта

1. Вы не правы. Мы сейчас обновляем индексы раз в месяц. В наших списках действительно есть еще новые сайты, на которые робот должен был сходить в декабре, а еще не дошел, но таких немного - несколько сотен.

2. Да, это в некоторых случаях помогает

С уважнием,

Влад Шабанов

[This message has been edited by vs (edited 18-01-2002).]

домен показывающий стр. во фрейме(da.ru, ussr.to) - это очень плохо?

22 декабря 2001, 00:09

Originally posted by attashe2:
Подскажите, очень прошу!
Может есть такой опыт.
Как относятся поисковики к доменам показывающим страницу во фрейме. Такие как da.ru, ussr.to и другие подобные.

Плохо относятся. http://www.rambler.ru/doc/recommendations.shtml

Как реагируют роботы поисковиков на места хостинга?

20 декабря 2001, 06:28

Originally posted by Colin:
Если ли разница, что сайт с выкупленным именем хостится в Штатах или в России?

Есть. До местных серверов роботы российских поисковых машин ходят обычно быстрее и с меньшим количеством проблем. Ну, конечно, если хостинг нормальный.

к вопросу об открытии алгоритма яндексации

26 ноября 2001, 18:49

Господа хорошие, да что вы так все молитесь на эту мифическую формулу релевантности? По вашему, она как философский камень, может любую страницу в нечто ценное превратить?

В любой быстрой поисковой машине формулы как таковой НЕТУ! Есть - сложный алгоритм, который, двигаясь по блокам индексной информации, на ходу подсчитывает разные параметры. Превратить его в аналитическую функцию, а потом найти экстремум при заданных ограничениях - невозможно (ну, по крайней мере, в Рамблеровском поисковике). Точнее, возможно (для любой такой штуки можно построить аналитическую аппроксимацию), но очень долго и сложно.

Ну, знаете вы, допустим, конкретные коэффициенты функции, определяющей вес вхождения нескольких слов в зависимости от расстояния между ними и еще десятка других параметров, что дальше? И так ведь ежу понятно, что слова запроса, идущие в документе рядом, имеют максимальный вес, а когда эти слова разбросаны по документу - вес пониже.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 26-11-2001).]

к вопросу об открытии алгоритма яндексации

26 ноября 2001, 18:49

Господа хорошие, да что вы так все молитесь на эту мифическую формулу релевантности? По вашему, она как философский камень, может любую страницу в нечто ценное превратить?

В любой быстрой поисковой машине формулы как таковой НЕТУ! Есть - сложный алгоритм, который, двигаясь по блокам индексной информации, на ходу подсчитывает разные параметры. Превратить его в аналитическую функцию, а потом найти экстремум при заданных ограничениях - невозможно (ну, по крайней мере, в Рамблеровском поисковике). Точнее, возможно (для любой такой штуки можно построить аналитическую аппроксимацию), но очень долго и сложно.

Ну, знаете вы, допустим, конкретные коэффициенты функции, определяющей вес вхождения нескольких слов в зависимости от расстояния между ними и еще десятка других параметров, что дальше? И так ведь ежу понятно, что слова запроса, идущие в документе рядом, имеют максимальный вес, а когда эти слова разбросаны по документу - вес пониже.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 26-11-2001).]

Топ запросов в яндексе и рамблере

26 ноября 2001, 18:25

Originally posted by Professor:
Если кого интересует, предоставлю доступ к онлайновому сервису по подбору самых популярных слов/фраз по интересующей тематике.

Я бы посоветовал всем посмотреть на Рамблеровскую Руметрику http://rumetrica.rambler.ru/data/auditory/5/ там запросы Рамблеровской машинки вместе с некоторой статистикой и группировкой по темам. Всеж таки, информация из первых рук, причем достаточно свежая.

С уважением,

Влад

[This message has been edited by vs (edited 26-11-2001).]

Особенности CY

23 ноября 2001, 02:17

<font face="Verdana" size="2">Originally posted by melkov:
А какая разница, по какому адресу индексировать Rambler и CY считать? Наплодили зеркал, понимаешь , ладно простые вебмастера - ничего не понимают в этом вопросе, Рамблер-то с проблемой зеркал должен быть знаком.

Через некоторое время все вернется на свое место.</font>

Что-то мне это немножко непонятно. Получается, выкачиваю я сервер конкурента себе так, чтобы он стал полным зеркалом, а затем раз в час делаю файлам touch или хуже того, их немножко модифицирую, и все, оригинальный сайт уже не будет найден?

С уважением,

Влад

P.S. Давненько мы не оптимизировали Рамблер, чтоб он в первую N-ку в разных поисковиках попадал Все, пошел читать раздел про дорвеи и холвеи

Open AI тестирует память для ChatGPT

Маркетинг для шоколадной фабрики. На 34% выше средний чек

vs