создание поисковика

123 4
K
На сайте с 10.08.2005
Offline
3
#11

ага подумаю сенки) всем кто помогает

K
На сайте с 10.08.2005
Offline
3
#12

пока пришла в голову мысль создать графическое приложение (для информативности что и как что то делает) из которогот будут запускаться в потоках краулер и спайдер и обмениваться между собой сообщениями(краулер будет посылать в спайдер урлы для стягивания страниц)..подскажите если я что не так мыслю

lagif
На сайте с 15.12.2004
Offline
30
#13

kasperlet, Я бы рекомендовала простой консольный мониторинг и логи. Если, конечно, вы работаете под юниксоподобием. Всегда хорошо, когда проге не требуются граф. оболочки.

з.ы. А вообще я всегда думала, что краулер и спайдер - это одно и то же. :D

Но всегда интересно знать, какие потоки и что читают в данный момент... :)

Это тоже пройдет...
K
На сайте с 10.08.2005
Offline
3
#14

ну можно сказать что одно и тоже просто разные методы будук крутиться в разных потоках... на счет консоли и логов сенки (хотя работаю под виндой но идея рульная)..да еще подскажите странички в большинстве случаешь парсяться на наличие урлов регулярками?

SS
На сайте с 03.09.2004
Offline
141
#15
никто так и не ответил откуда брать урлы для индексации (не считая тех которые регят веб мастера)???

Я полагаю, робот у Вас уже есть.

Тогда отправьте его в какой-то большой каталог сайтов, он пройдет по ним и соберет урлы сайтов, на которые стоят ссылки с каталога, пройдя по всем указанным сайтам, он соберет новые урлы и опять будет куда идти. etc

полно вариантов - беги по выдаче яндекса, ключевики дергай из статистики рамблера

Не лучший вариант.

Если вести постоянные обращения в автоматическом режиме, то Яндекс может заблокировать IP, как неизвестный поисковик, не соблюдающий стандарт robots.txt. Насколько помню, прецеденты с блокированием были и даже обсуждались здесь на форуме где-то.

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт
lagif
На сайте с 15.12.2004
Offline
30
#16

kasperlet,

Не обязательно регулярками. Да, в общем, одни только регулярные выражения не всегда правильно использовать. Можно парсить только ссылки <a href... а сплошной текст - можно регулярками.

p.s. Есть паук-родитель, который плодит пауков-потомков. Наверняка у вас именно так.

K
На сайте с 10.08.2005
Offline
3
#17

у меня еще нет паука я просто консультируюсь и собираю инфу чтобы все правильно сделать и не переисывать по 10 раз)

K
На сайте с 10.08.2005
Offline
3
#18

да еще вопрос паук тащит страничку в большинстве поисковиков методом HTTP

Get???

lagif
На сайте с 15.12.2004
Offline
30
#19

kasperlet, А как по-другому?

K
На сайте с 10.08.2005
Offline
3
#20

подскажите еще вот с таким ньансом (если с пауком впринципе все понятно то с парсингом страниц нет)

передача страницы на парсинг как в большинстве случаев осущ-тся? странички сливаються в какую нить директорию откуда их indexer подбирает и парсит на наличие ключевых слов и т.д или данные передаються indexer-у в поток для парсинга?

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий