vs

Рейтинг
24
Регистрация
20.06.2001
Должность
разработчик

Originally posted by zzzpack:
Я хочу спрятать несколько страниц от поисковых машин.

Именно для этого придумали <NOINDEX> и <NOFOLLOW>

Originally posted by AiK:
Но, 27 февраля в 14:22 MSK был первый заход по аналогичному запросу ...
Соответственно первого марта, обнаружив в логах такой запрос, я проверил и запрос технология COM, по которому сайт выдавался на первом месте ...

В это время мы запустили обновленную версию, котороая ищет по top100 строже - видимо это повлияло.

Originally posted by AiK:
Признайтесь честно: в Рамблере что-то поменялось?

Список неинформативных слов и алгоритм их обработки последние несколько недель не менялся. Возможно, какие-то другие изменения косвенно повлияли. Можете назвать точную дату, когда начали приходить по этому запросу?

Влад

[This message has been edited by vs (edited 12-03-2002).]

[This message has been edited by vs (edited 12-03-2002).]

Originally posted by Gray:
Вот интересно, когда Влад появится в этой теме?

ultimate: Ну, знаете ли, людям, который наш FAQ ленятся почитать, мне отвечать неохота. Я ж не техподдержка.

Nicholas: паук - это то, что представилось как StackRambler. Все остальное - не паук.

all: Разговоры про то, что полгода (или даже два месяца) не приходит паук - странные. Обратитесь в техподдержку, мож вас забанили или еще что. Мы, например, сейчас стали удалять серверы, которые 7 дней подряд нам не отвечают.

Положение хоть медленно, но меняется (в октябре я, помнится, говорил, что через 2 недели - оказалось, что 3 месяца).

Сейчас, наконец, 2 терабайта дисков куплены и мы переходим на двухнедельный график обновления базы. Некоторым полегчает на этой неделе (зависит только от положения в наших внутренних очередях). Через пару итераций (считайте, через месяц) должно очень полегчать почти всем.

Влад

Originally posted by euhenio:
-2: Да, но при заходе с англоязычных поисковиков будет выдаваться английская страница, она же выдавалась этому поисковику. То же и с русскими SE.

2. Вы уверены на 100% что нигде не ошибетесь? Что при переходе с английского поисковика будет выдаваться именно английская версия? А то прикольно будет - пошел на сайт с google - увидел английский текст. Потом нажал refresh - и он внезапно обрусел (или наоборот, обанглел .

Влад

[This message has been edited by vs (edited 11-02-2002).]

Originally posted by euhenio:
Чего ж тут думать? При клоакинге поисковик всегда видит одно и то же, но дело-то в том, что не всегда то же самое видит пользователь. Даже если страница для поисковика не является явно спаммерской, но хотя бы просто написана на другую тему, имхо, могут забанить. Потому что обман налицо.

1. Робот может определить, что пользователям дают не то же самое, что ему. Причем автоматически.

2. Пользователи принимают решение, пойти на сайт со страницы результатов поиска, или не пойти, на основе цитаты. Если в цитате что-то по русски, а сайт вдруг выдает английский текст, многие тут же уйдут. Поэтому полезно, чтобы поисковик видел (и цитировал) то же самое, что и люди, зашедшие на страницу.

3. Сделайте, чтобы русская версия была доступна по адресу rus/index.html, английская - по адресу eng/index.html и скормите каждую из них соответствующим поисковикам. А главную страницу index.html запретите через robots.txt

С уважением,

Влад

[This message has been edited by vs (edited 10-02-2002).]

Originally posted by Vyacheslav Tikhonov:
Вообще не очень здорово сначала качать все подряд, а уже потом анализировать. Гораздо лучше наоборот, к примеру, как у IBM Almadden.
Планируется ли в будущем появление в Рамблере какой-либо модели поведения пользователя наподобие PageRank?

Понимаете, Вячеслав, мы ведь этим очень давно занимается, на много граблей уже наступили. Идеи, о которых Вы говорите, конечно, интересны, разумны, но в случае больших объемов работают плохо. Или Вы будете иметь одну страшно дорогую железку, которая все время ломается, или придется разнести обработку на несколько узлов. А как только разнесете - сразу весь букет и получите. Например, у Вас перестанут клеится дубли, выкачанные разными узлами. Или еще что-нибудь.

Граф ссылок мы и сейчас строим, в наших внутренних версиях он используется в том числе и для ранжирования.

С уважением,

Влад

Originally posted by Gray:
Только еще один вопрос, Влад - если я натравлю на эту и другие страницы робота, который выберет из них ссылки и зашлет в базу? Хотелось бы уменьшить время прохода по ссылкам.

Пожалуй, достаточно поместить

....HTMLsummary/summarypage.html и все ....HTMLsummary/summaryNN.html, на которые она ссылается. Можно, конечно, и робота напустить, хуже не будет, только скачивание от этого не намного ускорится.

Влад

Originally posted by Gray:
Да я, в общем-то, давно уже подсунул ему следующую страницу
откуда в два клика видна любая страница форума.
Вот только эффекта не наблюдаю.

В базе Рамблера этот URL отсутствует.

Вы его подали на регистрацию год назад, 29.01.2001-10:50:44

Почему его нет в базе, разбираться долго, надо логи за год поднимать. Возможно, на момент скачивания (где нибудь в феврале прошлого года) сервер не ответил, или еще что-нибудь.

Сейчас пауку известны 54 URL с Вашего сервера. Сабмиты ссылок (addsite.cgi) были в январе прошлого года (14 штук), потом в феврале (2 штуки), потом в ноябре, но в ноябре Вы подавали исключительно динамику .php, которую наш робот пока не ест.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 19-01-2002).]

Всего: 129