kasperlet

Рейтинг
3
Регистрация
10.08.2005

у меня еще нет паука я просто консультируюсь и собираю инфу чтобы все правильно сделать и не переисывать по 10 раз)

ну можно сказать что одно и тоже просто разные методы будук крутиться в разных потоках... на счет консоли и логов сенки (хотя работаю под виндой но идея рульная)..да еще подскажите странички в большинстве случаешь парсяться на наличие урлов регулярками?

пока пришла в голову мысль создать графическое приложение (для информативности что и как что то делает) из которогот будут запускаться в потоках краулер и спайдер и обмениваться между собой сообщениями(краулер будет посылать в спайдер урлы для стягивания страниц)..подскажите если я что не так мыслю

ага подумаю сенки) всем кто помогает

ну а по поводу бюджета ) меня пока интересует реализация для понятия механизма роботы ...для этого трафика моей фирмы хватит слихвой

вы не поняли ... то что вытаскивать ссылки из страниц и по ним бежать дальше это понятно...

А вот когда не почем бежать..например поисковик только создан и о нем никто не знает но ему же нужно как нить самому растить свой индекс даже если никто не регит на моем поисковике свои страницы .. что делать тогда ???? брать урлы с dns серверов??? или есть еще варианты?

не знаю кому и чьим алгоритмам пора на пенсию но самый кульный и точный поиск на rambler.ru

никто так и не ответил откуда брать урлы для индексации (не считая тех которые регят веб мастера)???

если я не ошибся то нужно начать с создания поискового робота..

детали реал-и:

1. прога которая будет скачивать html странички и парсить из на наличие ключевых слов и html ссылок на другие странички.

если на страничке ссылки есть дальше грузить страничку по ссылке и парсить ее ...

Если я думаю правильно то вопрос действительно ли нужно скачивать странички или можно их как нить обрабатывать удаленно ?

И адреса для прохода веб страничек откуда береться ??? если не считать те которые веб мастер зарегил сам то с каких нить корневых dns ???

бюджета никакого ... если не считать рук ног и мозгов )

12
Всего: 20