поисковый паук - есть ли примеры ?

12
Pike
На сайте с 13.07.2004
Offline
79
#11

Первое что нужно сделать - это научить паука уважать robots.txt. Соответсвенно ему нужно имя, и всякие file_get_contents() здесь не потянут. Если хочется быстро и просто, можно поиграть со snoopy в php, а для многопоточности FunkLoad на питоне.

А уж добывать содержимое файлов - это по жизни само сабой получится. А с индиксаторами потом на локалке можно сколько угодно играть.

free hosting (http://rahost.com)
WhiteShaman
На сайте с 01.12.2006
Offline
62
#12
Pike:
Первое что нужно сделать - это научить паука уважать robots.txt.

А потом второе, третье - и вот это уже ни разу не простой паук, а навороченный бот. :)

Хотя роботс таки да, нужно учитывать.

В затруднительных случая я всегда первым делом бью в бубен.
Pike
На сайте с 13.07.2004
Offline
79
#13

WhiteShaman,

Судя по Вашим словам в соседней ветке, Вы близки к кругам, в которых плюют на robots.txt, а навороченные боты нужны для обхода картинок ;)

WhiteShaman
На сайте с 01.12.2006
Offline
62
#14
Pike:
WhiteShaman,

Судя по Вашим словам в соседней ветке, Вы близки к кругам, в которых плюют на robots.txt, а навороченные боты нужны для обхода картинок ;)

В кругах, к которым я близок... пишутся очень навороченные боты, которые никуда и ни на кого не плюют. И люди, которые их пишут, изначально понимают, за что берутся - а не говорят: "да вот щас напишем в 10 строк на пхп... а, да еще роботс.txt надо учитывать!.. да, еще то... да, еще сё... ну короче еще 10 минут... часов... дней... (месяцев... лет...) - и бот готов!" :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий