Странник

Рейтинг
10
Регистрация
31.10.2005

Стучался скриптом. День на третий забанили IP сервера. Да и Rambler слишком медленно отдаёт страницы для автоматического сканирования. Дней на 10 скачивания и на много гигов входящего трафика. Поэтому решил, что дешевле купить. Можно достать сентябрьскую базу, но она слишком древняя для моих нужд.

Shunya:
Нет! Это слишком просто! 😂

А если вспомнить что такое тИЦ, то можно предположить, что каждому сайту присваивается несколько тИЦ. По тИЦу на каждую категорию. То есть по созданию сайтов тИЦ 20, по психологии - 200, по программированию - 100. Яндекс может показывать только наибольший.

Следствие 1: в разных разделах каталога сайт ранжируется по-разному тИЦ.

Следствие 2: в одном разделе каталога должно наблюдаться непоследовательное расположение ряда сайтов (не по показанному тИЦ).

Следствие 3: поисковику легче более точно ранжировать сайт в выдаче по разным тематикам.

goover:
Уважаемые участники форума... Сталкивался ли ктонибудь с такой задачей?
если есть знающие то может кто подскажет что можно почитать и поглядеть по этому вопросы?
основной интерес представляет паук который будет ползать по вебу и искать такие фичи...
кое какой материал есть, но очень поверхностно к сожалению.... :(

www.filesearch.ru

lagif:
alyak,
Возможно, в этом случае все происходит из-за отсеивания повторяющихся доменов... надо проверить...

Там есть очень интересный эффект - если получить выдачу (первые 10 результатов) и перелистнуть, то Яндекс покажет реальные цифры количества сайтов по запросу. Подозреваю, что разница связана с тем, что первые 10 результатов хранятся в постоянном кеше и сопутствующие цифры по количеству сайтов - тоже. А вот остальные страницы выдачи считаются реально и цифры показываются текущие, а не кешированные.

Maxim Golubev:
нет, у меня стоит моя личная разработка, он и 50'000'000 легко потянет, если винты вовремя доставлять :)

Максим, набери у себя в поисковике слово "нло" и проанализируй выдачу ;)

1. Выдаются далеко не основные сайты.

2. Они малопосещаемые (кроме четвёртого, ригелевского).

3. Они очень слабо релевантные.

Потянуть-то потянет...

Torio:
Блин, уже долго бьюсь над этим вопросом - масса сервисов работает, но хочу понять как???

xml.yandex.ru

Законный вопрос: откуда несоответствия?

NetPromotion.Ru:
whiteman, мониторьте, хоть несколько раз в день, цена окончательная. Система работает в пареллельном режиме и способна проверять одновременно до 25 позиций. Скорость работы можно посмотреть на http://NetPromotion.Ru

Ваш анализ по сайту www.rentaguru.ru и фразе "Создание сайта":

Сайта www.rentaguru.ru нет в Яндексе по Вашему ключевому слову!
Сайта www.rentaguru.ru нет в Рамблере по Вашему ключевому слову!
Сайта www.rentaguru.ru нет в Гугле по Вашему ключевому слову!
Позиция сайта www.rentaguru.ru в Апорте: 79
Сайта www.rentaguru.ru нет в MSN Search по Вашему ключевому слову!
Сайта www.rentaguru.ru нет в Yahoo! по Вашему ключевому слову!
Сайта www.rentaguru.ru нет в AltaVista по Вашему ключевому слову!

--------------------------------------------------------------------------------

Показов в месяц в Яндексе: 67,652
Показов в месяц в Рамблере: 3,357
Запросов в месяц в Рамблере: 11,850
Запросов в месяц в mail.ru: —
Конкурентных страниц в Яндексе: 16,798,862
Конкурентных страниц в Рамблере: 32,622,767
Конкурентных страниц в Гугле: 4,950,000
Конкурентных страниц в Апорте: 19,000
Конкурентных сайтов в Яндексе: 5,671
Конкурентных сайтов в Рамблере: 234,621
Конкурентных сайтов в Апорте: 4,857

Сразу обратим внимание на то, что показов в три раза меньше, чем запросов:

Показов в месяц в Рамблере: 3,357
Запросов в месяц в Рамблере: 11,850

Э... Мне трудно это представить.

Страниц в Яндексе по данным Яндекса:

Результат поиска: страниц — 16 881 909, сайтов — не менее 5 671

По вашим:

Конкурентных страниц в Яндексе: 16,798,862

Далее:

Сайта www.rentaguru.ru нет в Гугле по Вашему ключевому слову!

Он ~290.

Сайта www.rentaguru.ru нет в Яндексе по Вашему ключевому слову!

Он 208 Точнее колеблется 190-210.

pelvis:
разве что заголовки собрать.

Боюсь, даже с этим будут проблемы. 40 терабайт выкачать и обработать это сама по себе интересная многосерверная задача. А выкачать надо, иначе откуда мы ссылки-то возьмём на другие страницы ;)

Кроме того, нам же не нужны доры и спам в индексе. Значит нужна какая-то ссылочная релевантность. Хотя бы простой анализ числом и тяжестью входящих ссылок. Для этого нужны значительные вычислительные мощности.

Alex Tanchik:
от куда взялась цифра 100 kb?
если делать базу как все сейчас делают, т.е. хранить не слово, а ID слова и координаты, то база будет занимать намного меньше вами предполагаемого места
http://index.bigmir.net/ - смотрим статистику поиска
грубо говоря, на 1 млн страниц нужно 6 гиг, в итоге, на 1000 млн нужно всего 6 тер, а не 100
для распределенной системы это не проблема, а она по любому будет распределенной, для такого объема

А давайте посчитаем на русских доументах и реальных цифрах ;) Возьмём официальные данные Яндекса. Размер индекса Яндекс.Сервера составляет 30-50% от размера документов ( http://company.yandex.ru/technology/products/Yandex-Server/intro.xml#requirement ). Будем считать по нижней грани: 30% от 30 кб (средний размер документа в Яндексе) = 10 кб/документ. Итого 10 Тб. 100 серверов только на хранение одной копии индекса.

Теперь добавим копии всех документов. Получим ещё 30 Тб. Можем ли мы их зазиповать и уменьшить объём базы на треть - не уверен - нужно смотреть нагрузку на раззиповку и на количество пользователей, которые лезут на один сервер одновременно: может оказаться дешевле хранить несколько оригинальных копий, а не одну зипованную. Итого, с индексом 40 Тб. То есть ~400 серверов только для хранения одной копии данных. Без учёта запаса прочности на возможную поломку компов.

При этом мы забыли о пользователях. Нам же нужно ещё и для них обрабатывать данные в реальном времени. Примерно для четверти всех запросов можно сделать преиндексацию (исследование Андреем Ивановым статистики Рамблера). Этот постоянно хранящийся индекс для Яндекса, например, займёт ~20 Гб (UTF-8, первые 20 записей на запрос). Остаётся 3/4 запросов, которые уникальны по своей природе и для которых индекс нужно отстраивать в реальном времени и при весьма большой нагрузке на сервер. Здесь уже, в завасимости от нагрузки, можно понять сколько нам нужно копий индексной базы (той самой, размером в 10 Тб на копию).

Всего: 68