создание поисковика

123 4
K
На сайте с 10.08.2005
Offline
3
4633

доброго всем для ..просьба сильно не пинать если вопрос избитый или топик засунул не в ту тему...

приехал сегодня с командировки и пришла в голову идея разобраться с работой поисковых машин и создать свою. (просто для себя из чистого любопытства к деталям реализации)

не подскажите с чего начать ..есть ликакая нить теория создания поисковиков, примерчики в исходниках, теоритические детали реализации ну и все что связано с этой темой... если не трудно подскажите и если есть можно линки выложит на полезные для меня ресурсы

Piligrim
На сайте с 10.04.2005
Offline
145
#1

бюджет какой? просто интересно

Директив (http://directiv.ru) - поисковый маркетинг Адвербо (http://adverbo.ru) - продвижение с ежедневными списаниями за топ или трафик
K
На сайте с 10.08.2005
Offline
3
#2

бюджета никакого ... если не считать рук ног и мозгов )

K
На сайте с 10.08.2005
Offline
3
#3

если я не ошибся то нужно начать с создания поискового робота..

детали реал-и:

1. прога которая будет скачивать html странички и парсить из на наличие ключевых слов и html ссылок на другие странички.

если на страничке ссылки есть дальше грузить страничку по ссылке и парсить ее ...

Если я думаю правильно то вопрос действительно ли нужно скачивать странички или можно их как нить обрабатывать удаленно ?

И адреса для прохода веб страничек откуда береться ??? если не считать те которые веб мастер зарегил сам то с каких нить корневых dns ???

Antony69
На сайте с 16.09.2004
Offline
146
#4

Я думаю для начала, если вы дружны с английским, вам будет интересно почитать следующую статью:

http://www-db.stanford.edu/pub/papers/google.pdf

Хотя бы получите общее представление об архитектуре поисковых систем.

Заметки SEO аналитика (http://www.seonotes.ru)
K
На сайте с 10.08.2005
Offline
3
#5

никто так и не ответил откуда брать урлы для индексации (не считая тех которые регят веб мастера)???

lagif
На сайте с 15.12.2004
Offline
30
#6

kasperlet,

С проиндексированных страниц... :) Почти что рекурсия :)

А если проект не имеет бюджета, за трафик Вы платите из своего кармана?

Это тоже пройдет...
K
На сайте с 10.08.2005
Offline
3
#7

вы не поняли ... то что вытаскивать ссылки из страниц и по ним бежать дальше это понятно...

А вот когда не почем бежать..например поисковик только создан и о нем никто не знает но ему же нужно как нить самому растить свой индекс даже если никто не регит на моем поисковике свои страницы .. что делать тогда ???? брать урлы с dns серверов??? или есть еще варианты?

K
На сайте с 10.08.2005
Offline
3
#8

ну а по поводу бюджета ) меня пока интересует реализация для понятия механизма роботы ...для этого трафика моей фирмы хватит слихвой

beroot
На сайте с 08.06.2004
Offline
124
#9
брать урлы с dns серверов??? или есть еще варианты?

kasperlet, полно вариантов - беги по выдаче яндекса, ключевики дергай из статистики рамблера.

lagif
На сайте с 15.12.2004
Offline
30
#10

kasperlet, Смотря, с чего начинать. Натравите на свой спайдер несколько обширных сайтов - а потом из десятка станет несколько тысяч, десятки тысяч и так далее...

если сайт хоть где-то упоминался, вы же его найдете рано или поздно. :)

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий