... Однако сдерживающим фактором всегда являлся и является экономический фактор. В данной работе мы умышленно конфигурационно ограничили нашу систему рамками сегментов российской (вернее русскоговорящей) сети Интернет. На практике это означает, что центральный узел поисковой системы "Turtle" в текущей реализации для обработки ресурсов таких сегментов сети имеет в своем составе:
компьютер центрального диспетчера;
10 компьютеров - накопителей данных;
компьютер коллектора индексов;
4 компьютера поисковых процессоров;
компьютер архивного сервера;
компьютер формирования и оптимизации поисковых запросов;
балансировщик нагрузок и кэш-сервер.
...
Данные российского сегмента мы оценивали примерно так:
суммарная совокупность серверов - 500 тыс.
суммарное количество документов, пригодных для сканирования - 70 млн.
Как видно из приведенных цифр, мы старались минимизировать потребность в аппаратных ресурсах за счет высокого качества программных разработок. Удалось нам это или нет - жизнь покажет.
При внедрении подобного метода производительность одного Crawler Agent (CA) может составить примерно 500 тыс. документов в сутки при условии, что мы не модернизировали компьютер CA, в конфигурацию которого входит 64MB RAM, 600Mhz Intel Pentium процессор и недорогой IDE HDD. Время сканирования российского Интернета в таком случае составит уже 140 дней, что существенно лучше, но продолжает быть не удовлетворительным для выполнения поставленной задачи. Пока мы только пришли к выводу, что CA по своей природе должен быть многопоточным.
Теперь попробуем увеличить количество CA с одного до десяти. Время сканирования российской части Интернета составит в этом случае 14 дней, что вполне удовлетворительно для инерционных поисковых систем.
При условии, что данные на таком сервере могут храниться в компрессированном виде, нетрудно посчитать, что одного сервера с массивом RAID объемом в 500GB должно хватать примерно на коллекцию в 50 млн. документов (на практике возможно меньше, во всяком случае, мы не ошибемся сильно в порядке).
Gray
По моим наблюдениям(в течении года, несколько моих сайтов) 10000 - 15000 для иц от 100 до 300(возможно я ошибаюсь и ИЦ тут совсем не причем, или посрественное влияние) Для новых сайтов без ИЦ - 1000-2000 страниц. Повторяю - это все наблюдение только по моим сайтам - возможно для других (в силу каких либо причин) эти цифры другие. Кстати хотелось бы выяснить.
Про требования к аппаратной платформе у них довольно хорошо расписано - для сборщика несколько машин PIII - 500-800,
одно-два хранилища на Русскую часть Рунета емкостью 1-2 Тбайта, плюс одна(или несколько) машин которые координируют работу пауков и постройку индекса. Дешевизна построения системы изначально заложена в системе.
С уважением, Марк Адаменко.
Господа! Вот вы тут прерикаетесь вместо того, чтобы обсуждать это преинтереснейшее явление...
По моему происходит очень значительное событие, значение которого нельзя не оценить(как бы не коментировали это представители Рамблера или Яндекса)
Первый раз услышав о Черепахе мне вспомнилась история о Пунто, но ... и тут начинается самое интересное!
Черепаха(по крайней мере по описанию) будет самым релевантным(и главное полным, а также адекватным) поисковиком Рунета(я так понял они планируют со временем сделать его мировым)
Почему? Сейчас поясню!
Начнем с Яндекса - все вроде хорошо, индексирует быстро, сайт появляется в базе в течении двух недель, но расплачиваться приходится лимитом индексируемых страниц. Причем непонятно как этот лимит вычисляется. Если исходя из ИЦ, то ... ну тут надеюсь всем понятно - не о каком качественном развитии Рунета с таким поисковиком речи быть не может(ну ничего себе - громко заявил!(:) - т.к. теряется основной закон рынка - конкуренция... Ну ладно, чего-то я от темы - это другой разговор.
С Рамблером получше - ограничения на лимит страниц в нем похоже сняты, - но и тут приводится расплачиваться!!! Чтобы полностью
проиндексировался сайт(и то не полностью - произошли достаточно
большие изменения, страниц прибыло) мне потребовалось ждать год(!!!)
или даже больше! Апорт и Гугль стоят где-то посередине -
практически одинаковые показатели как по количеству индексированных
страниц, так и по времени необходимому для обхода страниц (хотя за
прошедший год ни для того ни для другого не хватило времени и сил проиндексировать и половину контента на моих сайтах)
А вот Черепаха обещает переиндесировать(ну или проиндексировать) весь рунет за 14 дней(хотя мои расчеты даже по их выкладкам менее оптимистичны, но это сути дела не меняет)
Но мало того - один(а их у поисковика по описаниям много) из главных козырей поисковика - это то, что каждый проект может сам индексировать свои страницы, а потом отправлять индекс на главный поисковик(а заодно и поднять поиск на собственном сайте). Подобные возможности дает Яндекс.Сайт, но он просит за это решение деньги!!!
(Возник вопрос - а может индексы можно будет подделывать?)
Вот так вот! А вы говорите не чудо!
P.S. Пока писал сие, произошла презабавнейшая история - завис комп - причем изображение на экране осталось! Написал уже достаточно много); Было жутко обидно, но взгляд упал на цифровой фотоаппарат...((((;
В общем от первоначального текста сохранил одну треть, остальное дописываю впопыхах, охрана выгоняет!(((%
Пойдет через несколько месяцев. (% Сначала поисковик берет коллекцию документов на одном уровне, только затем обрабатывает и извлекает ссылки и составляет индекс.
А как в него попасть?(;
Большое спасибо Игорь, что прояснили ситуацию! Вот уж не думал, что у Рамблера возникнут проблемы с железом или каналами... А вот насчет политики компании подозревал, признаюсь! Но хотелось бы чтобы почаще индексировали - например, как Яндекс...
Кстати Александр!
Я писал (в первой теме которую вы указали), что сайт мой индексируют с трудом... Аж в июле писал... Так что же Вы думаете? Ситуация сильно изменилась? По моим прикидкам ситуация изменилась в худшую сторону - если в июле было 4-5 тысяч страниц, то сейчас сайт застрял где-то на 8-9 вот уже как месяц(в Яндексе)... Может быть у них есть ограничение на кол-во страниц для определенных типов сайтов - например ИЦ такой-то не более 10000 страниц(к примеру)?
Эх! Если б наши роботы так индексировали...
Это не openbot.com.tw случайно?
Он у меня ежедневно тыщ по двадцать регистрирует!
А чем тебя не устраивает robots.txt?
А вообще я заметил такую закономерность следя за статистикой сервера - Рамблер проходит по пять страниц(наблюдал за пятью сайтами) потом идет промежуток около получаса(очевидно за это время он забирает с других страниц по пять УРЛов - то есть время зависит от объема базы уникальных хостов, кол-ва документов на них и скорости сервера-соединения) затем он забирает опять пять страниц... Учитывая что Рамблер похоже обновляет базу еденично(то есть не каждый день - а где-то раз в неделю-месяц - если кто-то знает точно - скажите пожалуйста), и по моему, у него не существует никаких привелегий для различных сайтов(наблюдаю за логами пяти сайтов - различных по тематике, популярности, времени регистрации), то можно предположить что каждый раз рамблер регистрирует по 100-200 страниц!
Сайт у меня поболее твоего будет - около 200000 страниц!(; Дорвеев с подробными картами сайта - ХОТЬ ОТБАВЛЯЙ! Вот сейчас(в данный момент) впервые за две недели дождался Рамблера и Апорта. Апорт проиндексировал сегодня уже 300 с лишним страниц, Рамблер проиндексировал уже около 60(заходит примерно за пятью страницами через каждые 20 минут). К сожалению эти поисковики индексируют только по выходным, и с переодичностью(никак не могу отследить какая у них переодичность) то ли раз в две недели, то ли раз в месяц, то ли еще реже...:-( С Апортом же случилась такая недавно штука - у них в базе было около 15000 моих страниц, неделю назад осталось около 1700!!! Кто-нибудь может подсказать что произошло? Страницы не динамичные...