Пока, с Вашего позволения, погожу...;)
Так, как в качестве профилера использовался... PII-450+256RAM.😂
Это - аргумент!
PS Пипсками меркаться нет интереса. Так, как рашались видимо совсем разные задачи и в совершенно разных условиях.
1. Плиз, ссылку на такие подробности о Яндексе...
2. Обгонять Яндекс и не собирались.😂
Если это адресовано мне...
1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.
2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮
На многяйцевом оно конечно, можно...
Но эффективне, даже на 2-х яйцевом, в 2-х процессах.
Лучшее, что смогли, пока, получить - 3,6 секунды на парсинг и индексацию страницы.
Но не на ПХП естественно.;)
Время скачки - в основном зависит от серевера...
Тогда - а что тут обсуждать?...😮
Технические аспекты? Они, в большей степени, зависят от финансов вкладываемых в проект.
Для примера - Каков объем входящего трафика и кто его будет оплачивать?;)
Для обсуждения - нужны какие-то предложения по реализации.
Какие-то новые идеи и подходы, алгоритмы и принципы.
А так... Все это уже 100 раз было.;)
А чем не подошли:
1. МногоСерчь
2. Яндекс.Сервер
Может... И не мешало бы JavaScript на моде сначала поправить...;)
Простите, но это же Ваши слова:
А в сервера... Денег можно угрохать ровно столько, сколько есть.;)
Откуда такая цифра?😮
У Релком - 40$ за юнит.
WEB-сервер - 1 юнит, 2 других - 2-х юнитное железо.
Итого: 5 юнитов х 40$ =200$х12 месяцев=2400$
PS:
1. О каком-то, имхо, более-менее сносном "поисковике" можно говорить только в случае "своего" канала на 100мб.. Типа - "провайдер за стенкой".