- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
a). Это реальное число взятое из тестов.
b). Российский датацентр сейчас это около 120тбайт, тоесть примерно 30тбайт мы способны проиндексировать. На вскидку это более 1млрд страниц.
Ночью боюсь в случае проблем - репортов не будет. Так что имеет смысл включить днем, чтобы если что - сейчас исправить. Linux way короче. :)
Жалуются в основном владельцы и пользователи маленьких хостингов, у которых есть жеское кол-во ограничений на коннекты, тоесть на одном сервере физически размещено очень много доменов и ИП адресов, отследить такие практически не возможно или не понятно как :(
На вскидку это более 1млрд страниц
неверное у вас представление. 30ТБ - полмиллиарда документов (проверенно не раз).
Возможно, спорить не буду.
Прикидка сделана из расчета информации на яндексе.
Прикидка сделана из расчета информации на яндексе.
А где WebAlta?
У нас пока очень сложно посчитать. Могу сказать 100% только одно, что объем проиндексированной инфы в два раза меньше чем нужно для него места с учетом всех индексов, оригиналов в архивах и так далее.
Причем зависимость там от кол-ва страниц похоже не линейная.
pelvis, так откуда инфа?
Алексей Гурешов, а Вы в подпись то посмотрите. :)
Мы точно можем сказать, что средний контент занимает 6 кб , и это при выкинутых тегах и кодах.
Жалуются в основном владельцы и пользователи маленьких хостингов, у которых есть жеское кол-во ограничений на коннекты, тоесть на одном сервере физически размещено очень много доменов и ИП адресов, отследить такие практически не возможно или не понятно как :(
Так по скорости ответа и следить. Отправили запрос на ip, он прежде чем ответить думал к примеру 3 секунды - значит на этот ip не надо следующий запрос слать секунд 10. Думал 5 секунд - значит не слать потом 30 секунд. В общем нелинейная прогрессия. Тогда с быстрых не сильно нагруженных серверов - можно будет за короткий срок помногу скачивать, а с нагруженными - само отрегулируется.
Алексей Гурешов, а Вы в подпись то посмотрите. :)
Мы точно можем сказать, что средний контент занимает 6 кб , и это при выкинутых тегах и кодах.
Тоесть ты на основании объема plain textа считаешь кол-во страниц? :)
мдя, весело однако :D Почему бы тогда еще не зипануть? Вообще 2кб останется ;)
Interius так работать не будет. Мы говорим не про тормоза, а про лимиты.
Если считать время отклика, то сервера которые стоят в бобруйске будут постоянно загруженными.
Тоесть ты на основании объема plain textа считаешь кол-во страниц?
мдя, весело однако :D Почему бы тогда еще не зипануть? Вообще 2кб останется
Так я и написал, что Ваши циферьки с реалити не сходятся :d
При миллиарде страниц поболее места чем 30тер выходит.
А вот на остальную конкретику Вы так и не ответили. Если у Вас индексация занимает 7 десятитысячных секунды на документ, то пора и гугл переплюнуть. А базу показательно проапдейтить раз 15 , тогда народ и поверит в ваши миллионы в оборудовании.
pelvis, это не мои циферки еще раз.
В поиске Яндекса сегодня
уникальных серверов: 2 021 446,
уникальных документов: 704 903 214,
объем проиндексированной информации: 17 967 ГБ.