Попробуйте создать графическое приложение для информативности, которое будут запускаться в потоках краулер и спайдер - Поисковые технологии

создание поисковика

kasperlet · 2005-08-10T11:11:18.0000000Z

доброго всем для ..просьба сильно не пинать если вопрос избитый или топик засунул не в ту тему... приехал сегодня с командировки и пришла в голову идея разобраться с работой поисковых машин и создать свою. (просто для себя из чистого любопытства к деталям реализации) не подскажите с чего начать ..есть ликакая нить теория создания поисковиков, примерчики в исходниках, теоритические детали реализации ну и все что связано с этой темой... если не трудно подскажите и если есть можно линки выложит на полезные для меня ресурсы

K

3

kasperlet

12 августа 2005, 10:23

#11

ага подумаю сенки) всем кто помогает

K

3

kasperlet

12 августа 2005, 11:04

#12

пока пришла в голову мысль создать графическое приложение (для информативности что и как что то делает) из которогот будут запускаться в потоках краулер и спайдер и обмениваться между собой сообщениями(краулер будет посылать в спайдер урлы для стягивания страниц)..подскажите если я что не так мыслю

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

12 августа 2005, 12:05

#13

kasperlet, Я бы рекомендовала простой консольный мониторинг и логи. Если, конечно, вы работаете под юниксоподобием. Всегда хорошо, когда проге не требуются граф. оболочки.

з.ы. А вообще я всегда думала, что краулер и спайдер - это одно и то же. :D

Но всегда интересно знать, какие потоки и что читают в данный момент... :)

Это тоже пройдет...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

3

kasperlet

12 августа 2005, 12:28

#14

ну можно сказать что одно и тоже просто разные методы будук крутиться в разных потоках... на счет консоли и логов сенки (хотя работаю под виндой но идея рульная)..да еще подскажите странички в большинстве случаешь парсяться на наличие урлов регулярками?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

SS

141

Seventh Son

12 августа 2005, 12:29

#15

никто так и не ответил откуда брать урлы для индексации (не считая тех которые регят веб мастера)???

Я полагаю, робот у Вас уже есть.

Тогда отправьте его в какой-то большой каталог сайтов, он пройдет по ним и соберет урлы сайтов, на которые стоят ссылки с каталога, пройдя по всем указанным сайтам, он соберет новые урлы и опять будет куда идти. etc

полно вариантов - беги по выдаче яндекса, ключевики дергай из статистики рамблера

Не лучший вариант.

Если вести постоянные обращения в автоматическом режиме, то Яндекс может заблокировать IP, как неизвестный поисковик, не соблюдающий стандарт robots.txt. Насколько помню, прецеденты с блокированием были и даже обсуждались здесь на форуме где-то.

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт

Упал доход Проверки от Я.Бизнес и Новый сайт и Яндекс.

30

lagif

12 августа 2005, 12:39

#16

kasperlet,

Не обязательно регулярками. Да, в общем, одни только регулярные выражения не всегда правильно использовать. Можно парсить только ссылки <a href... а сплошной текст - можно регулярками.

p.s. Есть паук-родитель, который плодит пауков-потомков. Наверняка у вас именно так.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

3

kasperlet

12 августа 2005, 12:52

#17

у меня еще нет паука я просто консультируюсь и собираю инфу чтобы все правильно сделать и не переисывать по 10 раз)

K

3

kasperlet

12 августа 2005, 13:17

#18

да еще вопрос паук тащит страничку в большинстве поисковиков методом HTTP

Get???

30

lagif

12 августа 2005, 13:31

#19

kasperlet, А как по-другому?

K

3

kasperlet

15 августа 2005, 12:43

#20

подскажите еще вот с таким ньансом (если с пауком впринципе все понятно то с парсингом страниц нет)

передача страницы на парсинг как в большинстве случаев осущ-тся? странички сливаються в какую нить директорию откуда их indexer подбирает и парсит на наличие ключевых слов и т.д или данные передаються indexer-у в поток для парсинга?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, чтобы попасть в ответы Google Bard

Дзен реализовал для авторов возможность вывода денег через СПБ

создание поисковика