alyak

Рейтинг
31
Регистрация
02.10.2004
eshum:

А вообще запускать спайдер из-под апача - странно это.

Это один из вариантов - дешево и сердито, зато написать можно тяпляп в один процесс. Если речь идет о серьезных вещах, тогда спайдер выделяется в отдельную задачу , и улучшается как отдельное звено. Тогда наверное лучше всего будет C++. Но при создании поисковика в любом случае найдется много мест где лучше приложить усилия в первую очередь, например парсер - очень нетривиальная задача с учетом того что пишут HTML как попало. Одних кодировок новых пользователи напридумывали штук пятнадцать, одна из самых прикольных - KOI8_WIN1251 .

Interitus:
По-моему это слишком оптимистичное утверждение. Если использовать mod_perl в многопоточном апаче (worker.mpm или подобное) - то по крайней мере пакет LWP будет глючить. Нормально работать будет только в prefork режиме, что по сути то же самое, что создание нескольких процессов.

Ну так подправь LWP для себя если будет глючить . Я всегда себе подправляю и не важно в чем и кем написано. Кроме того остается способ через сокеты , примитивно. Если требуется сверхпроизводительность, дешевле поставить еще одну тачку чем доводить до совершенства.

у меня достаточно большой сайт , примерно 5000 уникальных страниц , кому-то это да нужно. Сегодня за сутки по статистике 19 запросов , вчера - 500 , значит пользователи не нашли то что искали. Я ничего не продаю. Сайт полностью выпал из выдачи , все 5000 страниц.

Со стороны пользователя , тут уже приводили пример по запросу "опель" который выдает все что угодня для опеля кроме самого автомобиля или хотя бы мест где продается. На некоторых присутствуют явные следы поискового спама.

Пользователь обычно расчитывает найти или наиболее крупный сайт, или наиболее точный ответ на свой вопрос. Во время апдетов , пользователь находит все что угодно кроме того что расчитывает найти. И сам факт того что есть перепады во время апдейтов говорит о непрофессинализме.

Что-то я тяжело пониямаю вашу беседу , на чем лучше на чем хуже. В принципе побарабану. Нужно учитывать что основная проблема спайдеров это тайм-ауты когда сервер недоступен или долго дожидаться отклика. Соответсвенно если это будет однозадачный процесс , то он может растянуться . Вывод - несколько паралельных процессов , на перле можно использовать создание детских процессов , или запустить несколько копий что нежелательно ибо perl/cgi грузиться при каждом новом процессе. mod_perl находиться в разделяемой памяти как и PHP . Их безболезненно можно запустить много. Если вы на shared хостинге принципиальным будет время выполнения процессов, тут лучше наверное перл ибо php легко выставляется в минимальное время выполнения и спайдер за запуск будет успевать содрать пару документов. Разумеется ресь идет о запуске из-под апача .

Что касается C , тоже вариант. И я б не сказал что намного лучше.

И нужно разделять сам спайдер и индексатор , это две разные задачи . И они могут быть реализованы на разных языках.

Больше зависит от программиста и програмно-алгоритмической реализации нежели от средства.

Создается впечатление что в яндексе новая команда которая развалит поисковик. Прошлый апдейт мой сайт выпал на сутки , потом появился , сейчас просто выпал - появиться или нет - не знаю . В настоящий момент яндекс самый нестабильный поисковик , и все больше напоминает кружок "умелые руки".

Кстати с прошлого обновления тИЦ почему-то стали разделять тИЦ домен и тИЦ www.домен .

Доолжен сконнектиться гна 80 порт, после чего , если это shared hosting , помойму host: www.mysite.com , затем

GET /index.php

не коннектиться - ищи причину в себе , для сервера нет разницы телнет это или нет.

Если телнетом , то соединившись GET "имя файла"

легко получается , хотя это чем-то другим делают .

Я уже высказывал свое мнение , mysql для задач индексации не годиться вообще . Mysql - заточен в два конца , на чтение и на вставку . При таком подходе в любом случае будут излишние накладные расходы на хранение данных , на их обработку . Разумно использовать mysql под коллекционирование данных. А выдачу для клиента оптимизировать с учетом одноразовой записи и многоразовой выдачи. Mysql удачен для длинних записей , не для организации деревьев.

Во-первых это не каждый день он у тебя считал , а за месяц считал , это чепуха по размеру , у меня роботы по гигу считывают за месяц каждый , и очень врядли это были картинки. Потому что средний размер получается 30 кил.

Во вторых , не очень надейся на google image , это всего-лишь 10-30 % гуглевского траффика , добавь мысленно к тому что зашли к тебе с гугля.

Вообщем жди, время вообще самый лучший раскрутчик , чем дольше ресурс существует тем больше он расскручивается. При условии что ты сам для этого хоть что-то делаешь и он не специализирован в очень узком направлении.

Изучай статистику , тут другого варианта нету , поставь что нибудь из статистики посовременее. У меня например столько гугльботов разных ходит что я сам уже запутался .

Всего: 104