Разработка поисковика

12
WE
На сайте с 28.06.2005
Offline
18
#11
euhenio:
Народ, лучше скажите, где создателю поисковика брать бесплатный трафик (входящий) и железо. :)
А что, ведь реально есть наверное, хостинги крупные, у которых исходящего трафика избыток, и они могут входящим поделиться? :)

Оффтоп....

[Удален]
#12
Народ, лучше скажите, где создателю поисковика брать бесплатный трафик (входящий) и железо.

Ну как где. Если при соотношении 1/4 трафик бесплатный - то задачу можно свести к генерации исходящего. А на эту тему уже был тред, ты дажется в нем делился рецептом. :)

А железо - покупать.

B
На сайте с 02.09.2002
Offline
42
bvd
#13
W.Ed.:
PageRank performs an objective measurement of the importance of web pages ...


Источники:
http://www.google.ru/corporate/tech.html
/ru/articles/344

что за ерунда?

Зачем так обильно цитировать статью И.Сегаловича?

Может лучше более четко поставить свои вопросы?

И что это за РАЗРАБОТЧИК (НОВОЙ) поисковой машины, которому еще нужны какие-то идеи?

B
На сайте с 02.09.2002
Offline
42
bvd
#14

Как можно решить какие алгоритмы хороши, какие нет, если их не проверять в реальных условиях?

Следует отличать ИДЕИ алгоритмов и РЕАЛЬНЫЕ алгоритмы.

Многое зависит от ЦЕЛИ, для которой создается поисковая машина.

Трудно ожидать, что на форуме возможно собрать все хорошее, что опубликовано в:

trec.nist.gov

sigir.org

www10.org, www2002.org

и т.д.

Andreyka
На сайте с 19.02.2005
Offline
822
#15

Известно где - у крупных провайдеров. Которые за рекламу на поисковике дадут железо и траффик. Надо только их заинтересовать.

Не стоит плодить сущности без необходимости
4F
На сайте с 25.04.2005
Offline
20
4LF
#16

W.Ed., как вы реализовали crawler и indexer как разные скрипты?

я просто пробовал несколько схем = все в одном скрипте (много потоков)

два скрипта = но как взаимодействие организовать (у меня пока сокеты pipe под win не пошут :((

lagif
На сайте с 15.12.2004
Offline
30
#17

4LF

Для взаимодействия можно использовать не только пайпы (чтоб они пахали, надежней пересесть на юникс :) ), а еще и вашу файловую систему, и БД(под этим подразумевается и фс тоже, и любая СУБД, даже гебридная или полностью выдуманная вами), и разделяемую память.... море возможностей. Опять же, в *никсе взаимодействие процессов представляется мне куда проще, чем в винде... :)

Это тоже пройдет...
4F
На сайте с 25.04.2005
Offline
20
4LF
#18

lagif, полностью согласен по поводу ОС но все же пока посижу на форточке :)...

а на счет реализации двух скриптов кто как думает... может вообще извращнуться crawler скачал страничку и запустил

indexer -f путь_к_скачанной_странице :) по детски конечно :)) но зато нет потерь по передаче через сокеты, минус в том что память улетучиваться будет :(

lagif
На сайте с 15.12.2004
Offline
30
#19

попробуйте демоны.

R
На сайте с 29.04.2003
Offline
37
#20
bvd:
Как можно решить какие алгоритмы хороши, какие нет, если их не проверять в реальных условиях?

Следует отличать ИДЕИ алгоритмов и РЕАЛЬНЫЕ алгоритмы.
Многое зависит от ЦЕЛИ, для которой создается поисковая машина.

Трудно ожидать, что на форуме возможно собрать все хорошее, что опубликовано в:

trec.nist.gov
sigir.org
www10.org, www2002.org
и т.д.

2bvd

Спасибо за ссылки. Отличные материалы.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий