поисковый паук - есть ли примеры ?

12
FM
На сайте с 21.04.2004
Offline
125
2639

может кто писал поискового паука - может есть какие примеры ?

подскажите плз от чего отталкиваться ?

dlyanachalas
На сайте с 15.09.2006
Offline
693
#1

Здесь есть: http://search.delics.ru/add.php

Явно самопальный....

Pike
На сайте с 13.07.2004
Offline
79
#2

Их же полно с открытым кодом, самый модный вроде nutch сейчас.

free hosting (http://rahost.com)
Zlo_606ep
На сайте с 14.12.2006
Offline
129
#3

Я простого в 10 строк писал, ну, чтобы по ссылкам лазил, чтобы "не палить тему", кратко по функциям скажу как было (парсилка урлов):

создаю пустой массив ссылок, первое значение - стартовый адрес:

$massivssilok=array('http://start.url');

далее

while($url=each($massivssilok))

{

$page=load($url); // загрузка страницы, я обходился стандартным file_get_contents

preg_match_all('#url#',$page,$matches);

foreach($matches[1] as $v)

{

if(!in_array($v,$massivssilok)) array_push($massivssilok,$v);

}

}

Вот такая вот суть, плюс проверка на "нажность" ссылок, загрузка текста и т.п.,

для примитивной парсилки сойдет, если нужно помощнее, нужно учесть что скрипт будет вешать систему, я делал проверку времени выполнения: если больше нужного - break, в следующий раз массив заполнить набранными за предыдущие циклы адресами.

Zlo_606ep
На сайте с 14.12.2006
Offline
129
#4

сорри, дубль пробрался

FM
На сайте с 21.04.2004
Offline
125
#5
FM
На сайте с 21.04.2004
Offline
125
#6

нужен многопоточный быстрый кравлер ... чтоб он всё ложил в мускульную таблицу - а наш идексатор уже подхватывает эту таблицы и индексирует ...

Zlo_606ep
На сайте с 14.12.2006
Offline
129
#7
FreeMarket:
нужен многопоточный быстрый кравлер ... чтоб он всё ложил в мускульную таблицу

Вот так, правда в один поток, но и он неплохо систему подвесит :)

if(!in_array($v,$massivssilok)) {array_push($massivssilok,$v);polozhitvtablitsu($page);}

FM
На сайте с 21.04.2004
Offline
125
#8

Zlo_606ep, угу походу такие пауки скликивают рекламу бегуна :)

а чего ему систему вешать то ?

Zlo_606ep
На сайте с 14.12.2006
Offline
129
#9

Простая системка, и простой бесконечный цикл while, пока весь интернет не съест : )

FM
На сайте с 21.04.2004
Offline
125
#10

вешает систему наверное потому как ваш скрипт память сжирает быстро из за массивов ...

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий