di_max

di_max
Рейтинг
262
Регистрация
27.12.2006
kostich:
Да, программеров гоните....

Пока, с Вашего позволения, погожу...;)

Так, как в качестве профилера использовался... PII-450+256RAM.😂

kostich:
ps. При эффективном решении задачи все упирается в канал и дисковое IO.

Это - аргумент!

PS Пипсками меркаться нет интереса. Так, как рашались видимо совсем разные задачи и в совершенно разных условиях.

Слава Шевцов:
Гоните в шею программера. Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами раз в 3,6*3 млрд. док/70 серверов/86400 сек/сутки = 1800 суток ~ 5 лет.

1. Плиз, ссылку на такие подробности о Яндексе...

2. Обгонять Яндекс и не собирались.😂

kostich:
В нескольких потоках на 5 серверов и уже меньше суток получается, на 500 тыс документов... хотя IMHO цифра с потолка взята.

Если это адресовано мне...

1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.

2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮

На многяйцевом оно конечно, можно...

Но эффективне, даже на 2-х яйцевом, в 2-х процессах.

Слава Шевцов:
Соотношение было такое: 20 секунд качаются данные (с учётом прокси), 10 секунд они обрабатываются.

Лучшее, что смогли, пока, получить - 3,6 секунды на парсинг и индексацию страницы.

Но не на ПХП естественно.;)

Время скачки - в основном зависит от серевера...

писатель:
Насчет идей и концепций они будут просто вот так палить не хочется сразу, потому я и склоняюсь больше к разработке своего поисковика :)

Тогда - а что тут обсуждать?...😮

Технические аспекты? Они, в большей степени, зависят от финансов вкладываемых в проект.

Для примера - Каков объем входящего трафика и кто его будет оплачивать?;)

писатель:
надеюсь обсуждения данного вопроса продолжаться так как он на мой взгляд очень интересен :)

Для обсуждения - нужны какие-то предложения по реализации.

Какие-то новые идеи и подходы, алгоритмы и принципы.

А так... Все это уже 100 раз было.;)

А чем не подошли:

1. МногоСерчь

2. Яндекс.Сервер

Может... И не мешало бы JavaScript на моде сначала поправить...;)

Слава Шевцов:
А сервера откуда? Или они бесплатные?

Простите, но это же Ваши слова:

расход средств на хостинг

А в сервера... Денег можно угрохать ровно столько, сколько есть.;)

Слава Шевцов:
Плюс расход средств на хостинг $5К за год - не сказка.

Откуда такая цифра?😮

У Релком - 40$ за юнит.

WEB-сервер - 1 юнит, 2 других - 2-х юнитное железо.

Итого: 5 юнитов х 40$ =200$х12 месяцев=2400$

PS:

1. О каком-то, имхо, более-менее сносном "поисковике" можно говорить только в случае "своего" канала на 100мб.. Типа - "провайдер за стенкой".

Всего: 9522