Скрипт для мини поискового робота

0

in vite

22 февраля 2007, 22:36

2666

Подскажите, где можно найти скрипт для мини поискового робота? Есть ссылка, нужно чтобы робот проанализировал код страницы по ней, нашел в тексте нужную ссылку и продолжил работать уже с новой страницей. Анализ страницы и парсинг нужных ссылок могу в принципе написать сам, а вот механизм взаимодействия с http я не понимаю.

Заранее спасибо )

SE

13

S.E.O

23 февраля 2007, 12:26

#1

in vite:
а вот механизм взаимодействия с http я не понимаю.

Пишите в личку помогу.

Обмен ссылками Авто-Мото, Пишу PHP скрипты любой сложности, Продажа Запчастей на Японские Авто и Спецтехнику

822

Andreyka

23 февраля 2007, 13:48

#2

Курл в помощь

Не стоит плодить сущности без необходимости

IV

0

in vite

25 февраля 2007, 15:59

#3

S.E.O:
Пишите в личку помогу.

как только появится доступ в личку напишу )

Andreyka:
Курл в помощь

курл это что ?

гугл что ли ? )

если да, то естественно искал сначала там, но не нашел.

693

dlyanachalas

25 февраля 2007, 16:26

#4

Сами хотите сделать?

Если

Анализ страницы и парсинг нужных ссылок могу в принципе написать сам, а вот механизм взаимодействия с http я не понимаю.

То всё, что вам ещё нужно, есть здесь: http://ru.php.net/manual/ru/function.fsockopen.php

В

$out = "GET / HTTP/1.1\r\n";

Ставите просто слеш для главной страницы, и путь к странице, для всех остальных. Например:

$out = "GET /links.html/ HTTP/1.1\r\n";

I

16

Irh

26 февраля 2007, 07:42

#5

Имхо, если объем «работ» у робота будет не огромным – можно обойтись и без курла и без sockets.

Реализовать при помощи $content=file_get_contents(“fullpath”).

После прегматчить нужные ссылки, например так:

preg_match_all("/<a (.*)href=(.*)>(.*)<\/a>/iU",$content,$found);

$hrs=$found[2];

А далее… если роботу гулять только внутри сайта – нужно отсеять внешние ссылки, отсеять ссылки mailto.

После попробовать составить полные урлы найденных по ссылкам страниц (не всегда указывается полный путь, иногда нужно добавить к ним и домен, например). Еще нужно отсеять # такие ссылки (как минимум).

Сделать функцию рекурсивной и вызывать себе наздоровьешко, собирая попутно те данные, для которых эта вещь пишется.

Можно пойти и сокетами.

$fp = fsockopen($host,$port,$errno,$errstring,$time_out);

set_socket_blocking($fp,0);

Отправить запрос ну и…

while (!feof($fp) && time()<$timeout)

И собирать данные. И аналогично анализировать дальше.

Удачи в разработке. :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

737

Kost

26 февраля 2007, 08:01

#6

А может робота лучше на PERL делать?

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.

822

Andreyka

26 февраля 2007, 08:10

#7

Можно и на perl, но самый лучший вариант - взять поисковик с открытым кодом и обработать напильником.

173

deleon

26 февраля 2007, 16:06

#8

Кому нужна хорошая и проверенная в работе PHP-функция для получения объектов из URL (header+content+title+meta tags) + правильная работа с редиректами + любой USER-AGENT (передается как параметр функции) - стучитесь в личку.

D

26

dimmonce

26 февраля 2007, 19:33

#9

Дайте бесплатно ;)

173

deleon

27 февраля 2007, 05:06

#10

dimmonce:
Дайте бесплатно ;)

Так я и не собирался деньги брать :)

Сейчас кину в личку 🚬

Курс биткоина превысил $50 тысяч

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта