Используйте перл для создания детских процессов - Поисковые технологии

search spider

Programist · 2004-08-30T22:09:23.0000000Z

Доброе время суток. Меня очень интересует создание поискового Интернет паука, в первую очередь мня интересует реальность написания на php программы такого рода. Людям знающим прошу уткнуть в нужные мануалы. Спасибо за помощь в начинаниях

30

lagif

28 июня 2005, 20:50

#11

50K?!! Вы, верно, шутите... Может, вы имели в виду 50М?

Это тоже пройдет...

[Удален]

28 июня 2005, 20:53

#12

50M в сутки? На виртуале?

Дайте плиз адресок виртуала. :)

WE

18

W.Ed.

29 июня 2005, 08:53

#13

Еще как реально, если серьезно подойти к вопросу.

Я curl не стал использовать, пишу все сам - чем меньше зависишь от чужого кода, тем лучше. Кстати, mysql разрабатывалась специально для обработки больших объемов данных.

Открыл тему по технологиям, используемым в поисковых механизмах.

/ru/forum/comment/869573

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

WE

18

W.Ed.

29 июня 2005, 08:56

#14

сейчас на 3-й день мой краулер прошелся по 24945 доменам... Жаль нельзя хостера грузить сильно :)

Быстрее надо свой открывать.

30

lagif

29 июня 2005, 11:46

#15

Interitus, Не на виртуале, разумеется... :)

W.Ed., Мой такую цифру съедает лениво за 1,5 суток (я угадаю эту мелодию с 2-х нот :) ).

Лениво - это если проставить глубину чтения где-то 3-го уровня, пустить 3 потока и зашейпить канал до 32К (иначе я всю локалку повешу).

Притом, что в сях гораздо проще настроить сокеты как хочется :) и многое-многое другое... :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

29 июня 2005, 11:53

#16

Притом, что в сях гораздо проще настроить сокеты как хочется и многое-многое другое...

Ага, проще, а парсить на сях чем, не вручную же весь этот кошмар писать? :)

146

Antony69

29 июня 2005, 13:47

#17

Interitus:
Ага, проще, а парсить на сях чем, не вручную же весь этот кошмар писать? :)

Для того чтобы парсить был создан Perl, насколько мне известно он и Яндексом используется для этих целей.

Заметки SEO аналитика (http://www.seonotes.ru)

E

17

eshum

29 июня 2005, 18:32

#18

Если я не ошибаюсь, в PHP нет поддержки тредов или н****кируемого ввода/вывода, а без этого обойтись трудно. Можно конечно на каждый запрос порождать новый процес, но это тоже не дело.

На мой взгляд, хорошим решением по критерию время-результат-производительность будет perl или python + н****кируемый IO на сетевом интерфейсе.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

A

31

alyak

29 июня 2005, 19:46

#19

Что-то я тяжело пониямаю вашу беседу , на чем лучше на чем хуже. В принципе побарабану. Нужно учитывать что основная проблема спайдеров это тайм-ауты когда сервер недоступен или долго дожидаться отклика. Соответсвенно если это будет однозадачный процесс , то он может растянуться . Вывод - несколько паралельных процессов , на перле можно использовать создание детских процессов , или запустить несколько копий что нежелательно ибо perl/cgi грузиться при каждом новом процессе. mod_perl находиться в разделяемой памяти как и PHP . Их безболезненно можно запустить много. Если вы на shared хостинге принципиальным будет время выполнения процессов, тут лучше наверное перл ибо php легко выставляется в минимальное время выполнения и спайдер за запуск будет успевать содрать пару документов. Разумеется ресь идет о запуске из-под апача .

Что касается C , тоже вариант. И я б не сказал что намного лучше.

И нужно разделять сам спайдер и индексатор , это две разные задачи . И они могут быть реализованы на разных языках.

Больше зависит от программиста и програмно-алгоритмической реализации нежели от средства.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

29 июня 2005, 20:39

#20

Вывод - несколько паралельных процессов , на перле можно использовать создание детских процессов , или запустить несколько копий что нежелательно ибо perl/cgi грузиться при каждом новом процессе. mod_perl находиться в разделяемой памяти как и PHP . Их безболезненно можно запустить много.

По-моему это слишком оптимистичное утверждение. Если использовать mod_perl в многопоточном апаче (worker.mpm или подобное) - то по крайней мере пакет LWP будет глючить. Нормально работать будет только в prefork режиме, что по сути то же самое, что создание нескольких процессов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что такое Power BI и зачем это нужно бизнесу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

search spider