Стучался скриптом. День на третий забанили IP сервера. Да и Rambler слишком медленно отдаёт страницы для автоматического сканирования. Дней на 10 скачивания и на много гигов входящего трафика. Поэтому решил, что дешевле купить. Можно достать сентябрьскую базу, но она слишком древняя для моих нужд.
А если вспомнить что такое тИЦ, то можно предположить, что каждому сайту присваивается несколько тИЦ. По тИЦу на каждую категорию. То есть по созданию сайтов тИЦ 20, по психологии - 200, по программированию - 100. Яндекс может показывать только наибольший.
Следствие 1: в разных разделах каталога сайт ранжируется по-разному тИЦ.
Следствие 2: в одном разделе каталога должно наблюдаться непоследовательное расположение ряда сайтов (не по показанному тИЦ).
Следствие 3: поисковику легче более точно ранжировать сайт в выдаче по разным тематикам.
www.filesearch.ru
Там есть очень интересный эффект - если получить выдачу (первые 10 результатов) и перелистнуть, то Яндекс покажет реальные цифры количества сайтов по запросу. Подозреваю, что разница связана с тем, что первые 10 результатов хранятся в постоянном кеше и сопутствующие цифры по количеству сайтов - тоже. А вот остальные страницы выдачи считаются реально и цифры показываются текущие, а не кешированные.
Максим, набери у себя в поисковике слово "нло" и проанализируй выдачу ;)
1. Выдаются далеко не основные сайты.
2. Они малопосещаемые (кроме четвёртого, ригелевского).
3. Они очень слабо релевантные.
Потянуть-то потянет...
xml.yandex.ru
Законный вопрос: откуда несоответствия?
Ваш анализ по сайту www.rentaguru.ru и фразе "Создание сайта":
Сразу обратим внимание на то, что показов в три раза меньше, чем запросов:
Э... Мне трудно это представить.
Страниц в Яндексе по данным Яндекса:
По вашим:
Далее:
Он ~290.
Он 208 Точнее колеблется 190-210.
Боюсь, даже с этим будут проблемы. 40 терабайт выкачать и обработать это сама по себе интересная многосерверная задача. А выкачать надо, иначе откуда мы ссылки-то возьмём на другие страницы ;)
Кроме того, нам же не нужны доры и спам в индексе. Значит нужна какая-то ссылочная релевантность. Хотя бы простой анализ числом и тяжестью входящих ссылок. Для этого нужны значительные вычислительные мощности.
А давайте посчитаем на русских доументах и реальных цифрах ;) Возьмём официальные данные Яндекса. Размер индекса Яндекс.Сервера составляет 30-50% от размера документов ( http://company.yandex.ru/technology/products/Yandex-Server/intro.xml#requirement ). Будем считать по нижней грани: 30% от 30 кб (средний размер документа в Яндексе) = 10 кб/документ. Итого 10 Тб. 100 серверов только на хранение одной копии индекса.
Теперь добавим копии всех документов. Получим ещё 30 Тб. Можем ли мы их зазиповать и уменьшить объём базы на треть - не уверен - нужно смотреть нагрузку на раззиповку и на количество пользователей, которые лезут на один сервер одновременно: может оказаться дешевле хранить несколько оригинальных копий, а не одну зипованную. Итого, с индексом 40 Тб. То есть ~400 серверов только для хранения одной копии данных. Без учёта запаса прочности на возможную поломку компов.
При этом мы забыли о пользователях. Нам же нужно ещё и для них обрабатывать данные в реальном времени. Примерно для четверти всех запросов можно сделать преиндексацию (исследование Андреем Ивановым статистики Рамблера). Этот постоянно хранящийся индекс для Яндекса, например, займёт ~20 Гб (UTF-8, первые 20 записей на запрос). Остаётся 3/4 запросов, которые уникальны по своей природе и для которых индекс нужно отстраивать в реальном времени и при весьма большой нагрузке на сервер. Здесь уже, в завасимости от нагрузки, можно понять сколько нам нужно копий индексной базы (той самой, размером в 10 Тб на копию).