обновление кэша (не апдейт) 15.01.2007

123
di_max
На сайте с 27.12.2006
Offline
262
#11
Miha Kuzmin (KMY):
di_max, у вас совсем соображаловка отсутствует ? Хотя бы так http://www.yandex.ru/yandsearch?stype=www&nl=0&text=Yandex%2F1.01.001+%28compatible%3B+Win16%3B+H%29 попробовали.

Ну, говорят: "Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов"

Предположим, что так.

Но по факту его запросов, см. ниже, я б поостерегся говорить, что это "зеркальщик".

Да и не понятно из такого, что он определяет как "зеркала"?

Типа: 2 домена - мой_сайт.ру и ввв.мой_сайт.ру

По моему это можно и так понять, без спец. робота...

"Зеркальность" 2-х разных сайтов тоже ж определяет Янь. Но не ботом ж...

// Все наши проблемы от нашего не знания...
[Удален]
#12
Типа: 2 домена - мой_сайт.ру и ввв.мой_сайт.ру
По моему это можно и так понять, без спец. робота...
"Зеркальность" 2-х разных сайтов тоже ж определяет Янь. Но не ботом ж...

Надо же, абсолютный ноль в знаниях, однако "но не ботом ж..." Советовал бы заменить сегаловича, такой крупный специалист по алгоритмам безусловно пользуется спросом 😂

AVV
На сайте с 31.07.2006
Offline
84
AVV
#13
di_max:
Ну, говорят: 😕 "Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов"
Предположим, что так.
Но по факту его запросов, см. ниже, я б поостерегся говорить, что это "зеркальщик".

http://webmaster.yandex.ru/faq.xml?id=502499#user-agent


А как в логах сервера называется ваш робот? Ваш робот «ходит» с одного IP-адреса?

У Яндекса есть несколько роботов, которые представляются по-разному.

* Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
* Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
* Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
* Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
* Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
* Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
* YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в

Если предположить, что во время апдейта 8 января действительно была потеряна индексная база, а следующий ап (11 января) был проведен по базе за конец прошлого года, то, возможно, следующий апдейт будет только после того, как Яндекс полностью по-новой проиндексирует весь рунет.

Возможно, этим и объясняется повышенная активность ботов.

di_max
На сайте с 27.12.2006
Offline
262
#14

Сорри за оффтоп.

Термин "зеркальщик" може содержать в себе 3 варианта смыслов того, что он "зеркалит".

1-й вариант: Ответы Web-сервера на запрос "мой_сайт.ру/" и запрос "мой_сайт.ру/index.html" или

другой название файла, установленное по умолчанию и не всегда это "index.html".

2-й вариант: Ответы Web-сервера на запрос "мой_сайт.ру/" и запрос "ввв.мой_сайт.ру/"

Это хоть как-то поясняет, что он одновременно запросил и robots.txt.

Но, ту же самую информацию сегодня получил и "Yandex/1.01.001 (compatible; Win16; I)"

ДО(!) прихода "зеркальшика".

3-й вариант - "зеркалирование" 2-х разных сайтов не подтверждается, так как этот

робот не идет дальше по страницам сайта.

G4
На сайте с 11.03.2006
Offline
125
#15
AVV:
http://webmaster.yandex.ru/faq.xml?id=502499#user-agent



Если предположить, что во время апдейта 8 января действительно была потеряна индексная база, а следующий ап (11 января) был проведен по базе за конец прошлого года, то, возможно, следующий апдейт будет только после того, как Яндекс полностью по-новой проиндексирует весь рунет.

Возможно, этим и объясняется повышенная активность ботов.

Согласен на все 100, та оно и будет, поэтому и не было сегодня апа как обычно

Выкупаем места на крупных фильмовых и игровых сайтах!!ДОРОГО!!. Стучите 58five275.
AVV
На сайте с 31.07.2006
Offline
84
AVV
#16
di_max:

2-й вариант: Ответы Web-сервера на запрос "мой_сайт.ру/" и запрос "ввв.мой_сайт.ру/"
Это хоть как-то поясняет, что он одновременно запросил и robots.txt.
Но, ту же самую информацию сегодня получил и "Yandex/1.01.001 (compatible; Win16; I)"
ДО(!) прихода "зеркальшика".

Зеркальщик может запрашивать роботс на наличие директивы Host:

di_max:
3-й вариант - "зеркалирование" 2-х разных сайтов не подтверждается, так как этот робот не идет дальше по страницам сайта.

di_max, ну почему же, не идет? Просматривает все страницы, а не только морду. Это неоднократно видно по логам.

Склеивает одинаковые страницы, и не только, кстати, на одном сайте.

di_max
На сайте с 27.12.2006
Offline
262
#17
Miha Kuzmin (KMY):
Советовал бы заменить сегаловича, такой крупный специалист по алгоритмам безусловно пользуется спросом 😂

В статье И. Сегаловича, опубликованной в журнале "Компьютерра" №29 за октябрь 2002 года, сказано, что:

"За передним краем - модулем скачивания - стоят другие модули...
Модули хранения ссылок, модули отслеживания дубликатов... Докумеент обрабатывается HTML-парсером... Заметьте, что физически все эти этапы могут происходить в разных процессах или даже на разных компьютерах.."
(выделение мое)

То есть - это могут быть, а скорее всего так и есть, РАЗНЫЕ программы.

Которые, комплексно, и называю "роботом", "ботом" и прочее...

Я, для себя, посто разделил...

Извините, но мне так удобнее понимать механизм работы Яня.

di_max
На сайте с 27.12.2006
Offline
262
#18
AVV:
di_max, ну почему же, не идет? Просматривает все страницы, а не только морду. Это неоднократно видно по логам.
Склеивает одинаковые страницы, и не только, кстати, на одном сайте.

Извините пожалуйста, но я Ваших логов не видел. У меня - не ходит в глубь...

По сему и спросил: - Как у других?

AVV
На сайте с 31.07.2006
Offline
84
AVV
#19
di_max:
В статье И. Сегаловича... Заметьте, что физически все эти этапы могут происходить в разных процессах или даже на разных компьютерах.."

http://company.yandex.ru/inside/job/dev_search_developer.xml

В то же время поисковый кластер Яндекса является одной из самых сложных и масштабных IT-систем в России. Сегодня он состоит более чем из тысячи серверов, которые обрабатывают миллионы запросов в день, обходят рунет несколько раз в неделю и хранят терабайты информации.

Из чего можно заключить, что есть еще не поисковые, а другие кластеры, например, почтовый или фавиконовый, а также зеркальщик, работающий отдельно от поискового.

Работа зеркальщика заключается не только в определении основного зеркала с www или без www, а также, вероятно, и в определении дубликатов, которые не обязательно являются полными копиями других страниц. Может зеркальщик и десятисловия в тексте страницы считает, кто его знает...

http://company.yandex.ru/articles/article10.html

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

Очевидно, что так можно определять процент перекрытия текстов, выявлять все его источники и т.п.

и т.д.

di_max, кстати, автор этой статьи тоже Илья Сегалович.

di_max:
Извините пожалуйста, но я Ваших логов не видел. У меня - не ходит в глубь...

Ходит, но не каждый день. Так, иногда.

Сегодня - ходит усиленно, у меня, во всяком случае.

di_max
На сайте с 27.12.2006
Offline
262
#20

AVV, Большое спасибо!

- Подхватил штанишки и побежал изучать ссылки!:)

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий