Робот Яндекса - повторяется!

12
MASe
На сайте с 17.09.2002
Offline
219
#11
di_max:
В данном случае, когда на ресурсе 15к страниц и обновляемость <=20% страниц в месяц, роботс.тхт распухнет...
И через роботс.тхт будет не отследить - можно ли эту строку в нем удалить или еще нет.
При удалением через форму - Яндекс требует, что бы сервер вернул... 404 код для данного URL.
Круг замкнулся.;)

а вам то что на размер роботса???

блин... это же не главная страница ;-)

я вот встречал и роботсы по 10, и .htaccess по 100 с лишним килобайт и ничего - работает...

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)
di_max
На сайте с 27.12.2006
Offline
262
#12
K. Ermakov:
А вы в этой идее уверены?

Если Вы дадите четкое обоснование, что после ответа, что данной страницы НЕТ на сервере, НЕОБХОДИМО(!) повторять эти проверки еще какое-то время, то я от этой идеи откажусь. И, следует учесть, что такие повторы по 404 ответам "захламляют" Базу Данных, увеличивают расход трафика для ПС, на "выпуклый глаз" прикинуть общее кол-во таких ответов в Рунете...

Логичным будет вопрос: - А на кой этот "хлам" Яндексу?

K. Ermakov:

Что это за база такая? Что в ней хранится вместе с URL? По каким причинам, как вы думаете, её откатывать бы стали?

Прошу прощения... Не знаю в каком ключе ответить.

Буду говорить, с точки зрения, что Вы хорошо знакомы с СУБД.

База, физически, не одна. Так как структура ПС требует разделения всей информации на "логические" блоки, для увеличения скорости работы.

Таким образом, допускаю, что есть БД, в которой хранится информаци о ресурсах:

список известных ПС URL ресурса, дата индексации, контент URL и т.п.

Есть "поисковая" БД, в которой и происходит сам поиск.

Так как размер БД велик, то вполне допустимо, что она разделена физически и размещена на разных серверах...

- Какой процент безвозвратной потери информации, на Ваш взгляд, допустим для Яндекса?

5%? 10?.. 20?... 50?... А для критически важных вещей - есть и должен быть бекап.

Пс. Правлю орфографию....

// Все наши проблемы от нашего не знания...
di_max
На сайте с 27.12.2006
Offline
262
#13
MASe:
а вам то что на размер роботса???
блин... это же не главная страница ;-)

я вот встречал и роботсы по 10, и .htaccess по 100 с лишним килобайт и ничего - работает...

Ну... - А зачем "напрягать" роботов? Сваливать на них свои "грехи"...

Или по принципу: - он железный, вот пусть и работает? :D

ИМХО: - За роботс.тхт > 1к - ресерс можно "отстреливать". ;)

MASe
На сайте с 17.09.2002
Offline
219
#14
di_max:
Ну... - А зачем "напрягать" роботов? Сваливать на них свои "грехи"...
Или по принципу: - он железный, вот пусть и работает? :D
ИМХО: - За роботс.тхт > 1к - ресерс можно "отстреливать". ;)

ну просто у него работа такая... понимаете ;-) мы его не напрягаем, а направляем...

зато один раз прочитав роботс, он не будет читать по 1000 несуществующих страниц по несколько раз...

di_max
На сайте с 27.12.2006
Offline
262
#15

Еще раз подниму тему.

Фигняс получается с роботом Яндекса!

В ФАК-е Яндекса сказано:

http://webmaster.yandex.ru/faq.xml?id=502499#redirect

Что будет делать робот со страницей, на которой стоит redirect? А если используется директива refresh?


Как требует стандарт протокола HTTP, Яндекс, получив в заголовке ответа информацию, что данный URL является редиректом (коды 3хх), добавит в список адресов для обхода URL, на который ведет редирект. Если редирект был постоянный (код 301), либо на странице встретилась директива refresh, то старый URL будет исключен из списка обхода.

(Выделение мое.)

Так вот, на "404-й странце" как раз и есть мета-тег "refresh"...

То есть: либо робот действует не описано, либо...

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий