Новый поисковый монстр на горизонте

АГ
На сайте с 11.11.2005
Offline
21
#111

a). Это реальное число взятое из тестов.

b). Российский датацентр сейчас это около 120тбайт, тоесть примерно 30тбайт мы способны проиндексировать. На вскидку это более 1млрд страниц.

Interitus:
Ночью боюсь в случае проблем - репортов не будет. Так что имеет смысл включить днем, чтобы если что - сейчас исправить. Linux way короче. :)

Жалуются в основном владельцы и пользователи маленьких хостингов, у которых есть жеское кол-во ограничений на коннекты, тоесть на одном сервере физически размещено очень много доменов и ИП адресов, отследить такие практически не возможно или не понятно как :(

pelvis
На сайте с 01.09.2005
Offline
345
#112
Алексей Гурешов:
На вскидку это более 1млрд страниц

неверное у вас представление. 30ТБ - полмиллиарда документов (проверенно не раз).

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
АГ
На сайте с 11.11.2005
Offline
21
#113

Возможно, спорить не буду.

Прикидка сделана из расчета информации на яндексе.

pelvis
На сайте с 01.09.2005
Offline
345
#114
Алексей Гурешов:
Прикидка сделана из расчета информации на яндексе.

А где WebAlta?

АГ
На сайте с 11.11.2005
Offline
21
#115

У нас пока очень сложно посчитать. Могу сказать 100% только одно, что объем проиндексированной инфы в два раза меньше чем нужно для него места с учетом всех индексов, оригиналов в архивах и так далее.

Причем зависимость там от кол-ва страниц похоже не линейная.

pelvis, так откуда инфа?

pelvis
На сайте с 01.09.2005
Offline
345
#116

Алексей Гурешов, а Вы в подпись то посмотрите. :)

Мы точно можем сказать, что средний контент занимает 6 кб , и это при выкинутых тегах и кодах.

[Удален]
#117
Алексей Гурешов:
Жалуются в основном владельцы и пользователи маленьких хостингов, у которых есть жеское кол-во ограничений на коннекты, тоесть на одном сервере физически размещено очень много доменов и ИП адресов, отследить такие практически не возможно или не понятно как :(

Так по скорости ответа и следить. Отправили запрос на ip, он прежде чем ответить думал к примеру 3 секунды - значит на этот ip не надо следующий запрос слать секунд 10. Думал 5 секунд - значит не слать потом 30 секунд. В общем нелинейная прогрессия. Тогда с быстрых не сильно нагруженных серверов - можно будет за короткий срок помногу скачивать, а с нагруженными - само отрегулируется.

АГ
На сайте с 11.11.2005
Offline
21
#118
pelvis:
Алексей Гурешов, а Вы в подпись то посмотрите. :)
Мы точно можем сказать, что средний контент занимает 6 кб , и это при выкинутых тегах и кодах.

Тоесть ты на основании объема plain textа считаешь кол-во страниц? :)

мдя, весело однако :D Почему бы тогда еще не зипануть? Вообще 2кб останется ;)

Interius так работать не будет. Мы говорим не про тормоза, а про лимиты.

Если считать время отклика, то сервера которые стоят в бобруйске будут постоянно загруженными.

pelvis
На сайте с 01.09.2005
Offline
345
#119
Алексей Гурешов:
Тоесть ты на основании объема plain textа считаешь кол-во страниц?
мдя, весело однако :D Почему бы тогда еще не зипануть? Вообще 2кб останется

Так я и написал, что Ваши циферьки с реалити не сходятся :d

При миллиарде страниц поболее места чем 30тер выходит.

А вот на остальную конкретику Вы так и не ответили. Если у Вас индексация занимает 7 десятитысячных секунды на документ, то пора и гугл переплюнуть. А базу показательно проапдейтить раз 15 , тогда народ и поверит в ваши миллионы в оборудовании.

АГ
На сайте с 11.11.2005
Offline
21
#120

pelvis, это не мои циферки еще раз.

В поиске Яндекса сегодня

уникальных серверов: 2 021 446,

уникальных документов: 704 903 214,

объем проиндексированной информации: 17 967 ГБ.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий