search spider

P
На сайте с 30.08.2004
Offline
0
7444

Доброе время суток.

Меня очень интересует создание поискового Интернет паука, в первую очередь мня интересует реальность написания на php программы такого рода. Людям знающим прошу уткнуть в нужные мануалы. Спасибо за помощь в начинаниях

[Удален]
#1

А google.com и yandex.ru не пробовали ?

VT
На сайте с 27.01.2001
Offline
130
#2

Galliano, устное (пока) предупреждение.

Programist, могу порекомендовать хорошую книгу для создания роботов, но на perl.

На php обычно спайдеры не пишутся.

B
На сайте с 10.11.2004
Offline
11
#3

я делал поисковик на php для одного сайта , работает не плохо правдо требует curl модуль для пхп

M
На сайте с 03.03.2004
Offline
43
#4

У нас спайдер на РНР написан,

вначале на перле делали, работал он быстрее чем на РНР, но при этом памяти больше жрал, поэтому в итоге переписали все на РНР.

Мануалов нема, или ищи исходники opensource проектов и разбирай их, или учи функции работы с сокетами и курлом в РНР, там ничего сложного нет при условии что знаешь стандарты.

ну а теорию создания СЕ помоему на этом форуме когда то публиковали, посмотри архивы.

Дневник БоГа (http://www.seriousrevenue.com/). Лента SEO форумов (http://www.seriousrevenue.com/scripts/rubot/). Статистика денег (http://www.seriousrevenue.com/scripts/rate/).
Evg
На сайте с 12.07.2004
Offline
128
Evg
#5

Мне кажется, что php не совсем подходит для подобный задач. Конечно все зависит от планируемого количество индексированных документов.

libarea.ru ( https://libarea.ru/ )
lagif
На сайте с 15.12.2004
Offline
30
#6

Наверняка, на сях получится лучше... и по памяти, и по быстродействию... несмотря на то, что либы придется доставлять, чтоб чувствовать себя так же свободно, как в PHP.

На перле не пробовала. Но php хуже уже тем, что в нем довольно много скрыто от самого кодера... Да и не уверена, что он до конца избавлен от утечек памяти...

Это тоже пройдет...
A
На сайте с 22.06.2005
Offline
0
#7

Я пытаюсь написать, пока простого поискового робота на С++ с использованием библиотек MFC работы с Интернет, по такой примитивной схеме:

Вход

|

|

|------->База данных<------------|

| | (выбор Url's) |

| | |

| _> Кэш---------------- |

добавление | |

- - (извлечение ссылок, каждая в новом потоке)

Хотелось бы узнать Ваше мнение об этой схеме. Жизнеспособен ли будет такой робот?

Antony69
На сайте с 16.09.2004
Offline
146
#8

Сам Google допустим своих роботов на Python запрограмил. Сам пишу роботов на Perl, исправно работают. Насчет того, что памяти много кушают, ну это как написать.

Заметки SEO аналитика (http://www.seonotes.ru)
B2
На сайте с 20.06.2005
Offline
2
#9

интересная тема

на пхп вполне реально можно достаточно жного, 50к документов в сутки в принципе без особых проблем на виртуале, был опыт :)

ЗЫ: а какую бд планируете использовать? mysql ведь не серьезно :)

Antony69
На сайте с 16.09.2004
Offline
146
#10
BOBER-2:
интересная тема
на пхп вполне реально можно достаточно жного, 50к документов в сутки в принципе без особых проблем на виртуале, был опыт :)
ЗЫ: а какую бд планируете использовать? mysql ведь не серьезно :)

1) 50 К в сутки это не серьезно :)

2) MySQL вполне достаточно для малых и средних проектов. Имеется опыт. Все работает прекрасно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий