не получил
в лчику ПЛИЗ!
nickspring, видимо именно так :)
ну и часть 3, заключительная :)
посчитаем сколько на каждом сервере документов, эмпирическим путем выясняем, сколько документов на одном сервер.
получается, что чуть больше 890 000.
Возьмем общее количество документов по данным Яндекса - 852 643 995, разделим на 900 тыс. и получим 947 серверов, грубо (сервера могут быть разные), но в принципе вроде верно.
p.s. исправил очепятки
Broadcaster, должно быть вполне достаточно
Продолжим эксперимент:
Возьмем другой сайт и подставим ему те же идентифакторы:
Обычная сохраненная копия:
http://hghltd.yandex.com/yandbtm?url=http%3A//www.feli.ru/&text=%EC%E5%E1%E5%EB%FC&reqtext=%EC%E5%E1%E5%EB%FC%3A%3A1975+%26/%280+0%29+!%25%EC%E5%E1%E5%EB%FC%3A%3A2736&dsn=410&d=2563637
Теперь заменяем на d=2091891
http://hghltd.yandex.com/yandbtm?url=http%3A//www.feli.ru/&text=%EC%E5%E1%E5%EB%FC&reqtext=%EC%E5%E1%E5%EB%FC%3A%3A1975+%26/%280+0%29+!%25%EC%E5%E1%E5%EB%FC%3A%3A2736&dsn=410&d=2091891&isu=1
видим другую страницу, но она не совпадает со страницей с этим же параметром из первого эксперимента
теперь заменим параметр dsn на 386
получили то, что нужно.
мораль - значение имеют параметры dsn и d
Учитывая, что DSN относительно мало, можно предположить, что это какой либо идентификатор сервера, на котором лежит копия.
с DSN 600 он еще отдает копии, а вот с DSN 700 удается получить страницу "Broken url" с большой задержкой, видимо сервер, распределяющий задачи долго ломится к указанному по ID и по таймауту возвращает ошибку.
Можно предположить, что у Яндекса от 600 до 700 серверов для хранения документов, по сравнению с Гуглом относительно мало - http://www.webplanet.ru/news/reading-room/2005/12/5/archit.html
P.S. Всё исключительно предположения
Видимо действительно это номер документа.
Проведем эксперимент:
на ссылке http://hghltd.yandex.com/yandbtm?url=http%3A//www.zetta.ru/&text=%EC%E5%E1%E5%EB%FC&reqtext=%EC%E5%E1%E5%EB%FC%3A%3A1975+%26/%280+0%29+!%25%EC%E5%E1%E5%EB%FC%3A%3A2736&dsn=386&d=2091891 выберем "Сохраненная копия" - видим копию данной страницы
Теперь модифицируем ID документа:
http://hghltd.yandex.com/yandbtm?url=http%3A//www.zetta.ru/&text=%EC%E5%E1%E5%EB%FC&reqtext=%EC%E5%E1%E5%EB%FC%3A%3A1975+%26/%280+0%29+!%25%EC%E5%E1%E5%EB%FC%3A%3A2736&dsn=386&d=2091 и снова жмем "Сохраненная копия" - видим совсем другой документ.
еще эксперимент:
http://hghltd.yandex.com/yandbtm?url=http%3A//www.zetta.ru/&text=%EC%E5%E1%E5%EB%FC&reqtext=%EC%E5%E1%E5%EB%FC%3A%3A1975+%26/%280+0%29+!%25%EC%E5%E1%E5%EB%FC%3A%3A2736&dsn=386&d=20918&isu=1
и снова жмем "Сохраненная копия"
ну и несуществующий документ:
http://hghltd.yandex.com/yandbtm?url=http%3A//www.zetta.ru/&text=%EC%E5%E1%E5%EB%FC&reqtext=%EC%E5%E1%E5%EB%FC%3A%3A1975+%26/%280+0%29+!%25%EC%E5%E1%E5%EB%FC%3A%3A2736&dsn=386&d=2091890&isu=1
видим "Broken url"
в личку плиз
Кока Коля, ждите апдейта
FRaud, а при чем здесь алгоритм?
добавились кавычки в target="_blank", ищите по форуму, несколько тем было