AVV

AVV
Рейтинг
84
Регистрация
31.07.2006
Каширин:
взяла всю нагрузку в самое неудобное для себя

Ах-ах, какие молодцы. Но ведь это их работа.

Если, например, водитель троллейбуса возьмет на себя невероятную нагрузку в часы пик, то этого никто не заметит. Так должно и быть, потому что это - его работа.

Каширин:
Это вообще как-то немодно на нашем форуме - говорить в адрес Яндекса хорошие слова :) Но если в такой ситуации кто-то норовит еще кинуть в них камушек - меня это, мягко говоря, удивляет.

Удивляет? Почему?

То, что с нового года происходит и с индексацией новых сайтов, и с количеством апдейтов очень хорошо подходит под русское слове "запор".

Да простят меня уважаемые посетители форума.

di_max, не стоит благодарности. :)

P.S. Статья И.Сегаловича http://company.yandex.ru/articles/article10.html "Как работают поисковые системы", на мой взгляд, действительно на редкость интересная, хотя и написана несколько лет назад.

di_max:
В статье И. Сегаловича... Заметьте, что физически все эти этапы могут происходить в разных процессах или даже на разных компьютерах.."

http://company.yandex.ru/inside/job/dev_search_developer.xml

В то же время поисковый кластер Яндекса является одной из самых сложных и масштабных IT-систем в России. Сегодня он состоит более чем из тысячи серверов, которые обрабатывают миллионы запросов в день, обходят рунет несколько раз в неделю и хранят терабайты информации.

Из чего можно заключить, что есть еще не поисковые, а другие кластеры, например, почтовый или фавиконовый, а также зеркальщик, работающий отдельно от поискового.

Работа зеркальщика заключается не только в определении основного зеркала с www или без www, а также, вероятно, и в определении дубликатов, которые не обязательно являются полными копиями других страниц. Может зеркальщик и десятисловия в тексте страницы считает, кто его знает...

http://company.yandex.ru/articles/article10.html

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

Очевидно, что так можно определять процент перекрытия текстов, выявлять все его источники и т.п.

и т.д.

di_max, кстати, автор этой статьи тоже Илья Сегалович.

di_max:
Извините пожалуйста, но я Ваших логов не видел. У меня - не ходит в глубь...

Ходит, но не каждый день. Так, иногда.

Сегодня - ходит усиленно, у меня, во всяком случае.

di_max:

2-й вариант: Ответы Web-сервера на запрос "мой_сайт.ру/" и запрос "ввв.мой_сайт.ру/"
Это хоть как-то поясняет, что он одновременно запросил и robots.txt.
Но, ту же самую информацию сегодня получил и "Yandex/1.01.001 (compatible; Win16; I)"
ДО(!) прихода "зеркальшика".

Зеркальщик может запрашивать роботс на наличие директивы Host:

di_max:
3-й вариант - "зеркалирование" 2-х разных сайтов не подтверждается, так как этот робот не идет дальше по страницам сайта.

di_max, ну почему же, не идет? Просматривает все страницы, а не только морду. Это неоднократно видно по логам.

Склеивает одинаковые страницы, и не только, кстати, на одном сайте.

di_max:
Ну, говорят: 😕 "Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов"
Предположим, что так.
Но по факту его запросов, см. ниже, я б поостерегся говорить, что это "зеркальщик".

http://webmaster.yandex.ru/faq.xml?id=502499#user-agent


А как в логах сервера называется ваш робот? Ваш робот «ходит» с одного IP-адреса?

У Яндекса есть несколько роботов, которые представляются по-разному.

* Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
* Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
* Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
* Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
* Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
* Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
* YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в

Если предположить, что во время апдейта 8 января действительно была потеряна индексная база, а следующий ап (11 января) был проведен по базе за конец прошлого года, то, возможно, следующий апдейт будет только после того, как Яндекс полностью по-новой проиндексирует весь рунет.

Возможно, этим и объясняется повышенная активность ботов.

antonprk:
"Бешенное" скачивание подтверждаю.

Аналогично. А также одновременно усиленная работа зеркальщика.

talymas, а зачем вам апдейт?

Поздравляю.

Смотрю в свободное от работы и питья напитков время, если интересный фильм, или сериал. Например, Lost. Сериал Турецкий гамбит и сериал про Брежнева тоже смотрел.

А также иногда смотрю новости.

А вот DVD не смотрю.

Doom III (прошел до ада), Quake и FEAR

Но очень редко.

Всего: 3259