search spider

lagif
На сайте с 15.12.2004
Offline
30
#11

50K?!! Вы, верно, шутите... Может, вы имели в виду 50М?

Это тоже пройдет...
[Удален]
#12

50M в сутки? На виртуале?

Дайте плиз адресок виртуала. :)

WE
На сайте с 28.06.2005
Offline
18
#13

Еще как реально, если серьезно подойти к вопросу.

Я curl не стал использовать, пишу все сам - чем меньше зависишь от чужого кода, тем лучше. Кстати, mysql разрабатывалась специально для обработки больших объемов данных.

Открыл тему по технологиям, используемым в поисковых механизмах.

/ru/forum/comment/869573

WE
На сайте с 28.06.2005
Offline
18
#14

сейчас на 3-й день мой краулер прошелся по 24945 доменам... Жаль нельзя хостера грузить сильно :)

Быстрее надо свой открывать.

lagif
На сайте с 15.12.2004
Offline
30
#15

Interitus, Не на виртуале, разумеется... :)

W.Ed., Мой такую цифру съедает лениво за 1,5 суток (я угадаю эту мелодию с 2-х нот :) ).

Лениво - это если проставить глубину чтения где-то 3-го уровня, пустить 3 потока и зашейпить канал до 32К (иначе я всю локалку повешу).

Притом, что в сях гораздо проще настроить сокеты как хочется :) и многое-многое другое... :)

[Удален]
#16
Притом, что в сях гораздо проще настроить сокеты как хочется и многое-многое другое...

Ага, проще, а парсить на сях чем, не вручную же весь этот кошмар писать? :)

Antony69
На сайте с 16.09.2004
Offline
146
#17
Interitus:
Ага, проще, а парсить на сях чем, не вручную же весь этот кошмар писать? :)

Для того чтобы парсить был создан Perl, насколько мне известно он и Яндексом используется для этих целей.

Заметки SEO аналитика (http://www.seonotes.ru)
E
На сайте с 12.01.2004
Offline
17
#18

Если я не ошибаюсь, в PHP нет поддержки тредов или н****кируемого ввода/вывода, а без этого обойтись трудно. Можно конечно на каждый запрос порождать новый процес, но это тоже не дело.

На мой взгляд, хорошим решением по критерию время-результат-производительность будет perl или python + н****кируемый IO на сетевом интерфейсе.

A
На сайте с 02.10.2004
Offline
31
#19

Что-то я тяжело пониямаю вашу беседу , на чем лучше на чем хуже. В принципе побарабану. Нужно учитывать что основная проблема спайдеров это тайм-ауты когда сервер недоступен или долго дожидаться отклика. Соответсвенно если это будет однозадачный процесс , то он может растянуться . Вывод - несколько паралельных процессов , на перле можно использовать создание детских процессов , или запустить несколько копий что нежелательно ибо perl/cgi грузиться при каждом новом процессе. mod_perl находиться в разделяемой памяти как и PHP . Их безболезненно можно запустить много. Если вы на shared хостинге принципиальным будет время выполнения процессов, тут лучше наверное перл ибо php легко выставляется в минимальное время выполнения и спайдер за запуск будет успевать содрать пару документов. Разумеется ресь идет о запуске из-под апача .

Что касается C , тоже вариант. И я б не сказал что намного лучше.

И нужно разделять сам спайдер и индексатор , это две разные задачи . И они могут быть реализованы на разных языках.

Больше зависит от программиста и програмно-алгоритмической реализации нежели от средства.

[Удален]
#20
Вывод - несколько паралельных процессов , на перле можно использовать создание детских процессов , или запустить несколько копий что нежелательно ибо perl/cgi грузиться при каждом новом процессе. mod_perl находиться в разделяемой памяти как и PHP . Их безболезненно можно запустить много.

По-моему это слишком оптимистичное утверждение. Если использовать mod_perl в многопоточном апаче (worker.mpm или подобное) - то по крайней мере пакет LWP будет глючить. Нормально работать будет только в prefork режиме, что по сути то же самое, что создание нескольких процессов.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий