- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
50K?!! Вы, верно, шутите... Может, вы имели в виду 50М?
50M в сутки? На виртуале?
Дайте плиз адресок виртуала. :)
Еще как реально, если серьезно подойти к вопросу.
Я curl не стал использовать, пишу все сам - чем меньше зависишь от чужого кода, тем лучше. Кстати, mysql разрабатывалась специально для обработки больших объемов данных.
Открыл тему по технологиям, используемым в поисковых механизмах.
/ru/forum/comment/869573
сейчас на 3-й день мой краулер прошелся по 24945 доменам... Жаль нельзя хостера грузить сильно :)
Быстрее надо свой открывать.
Interitus, Не на виртуале, разумеется... :)
W.Ed., Мой такую цифру съедает лениво за 1,5 суток (я угадаю эту мелодию с 2-х нот :) ).
Лениво - это если проставить глубину чтения где-то 3-го уровня, пустить 3 потока и зашейпить канал до 32К (иначе я всю локалку повешу).
Притом, что в сях гораздо проще настроить сокеты как хочется :) и многое-многое другое... :)
Ага, проще, а парсить на сях чем, не вручную же весь этот кошмар писать? :)
Ага, проще, а парсить на сях чем, не вручную же весь этот кошмар писать? :)
Для того чтобы парсить был создан Perl, насколько мне известно он и Яндексом используется для этих целей.
Если я не ошибаюсь, в PHP нет поддержки тредов или н****кируемого ввода/вывода, а без этого обойтись трудно. Можно конечно на каждый запрос порождать новый процес, но это тоже не дело.
На мой взгляд, хорошим решением по критерию время-результат-производительность будет perl или python + н****кируемый IO на сетевом интерфейсе.
Что-то я тяжело пониямаю вашу беседу , на чем лучше на чем хуже. В принципе побарабану. Нужно учитывать что основная проблема спайдеров это тайм-ауты когда сервер недоступен или долго дожидаться отклика. Соответсвенно если это будет однозадачный процесс , то он может растянуться . Вывод - несколько паралельных процессов , на перле можно использовать создание детских процессов , или запустить несколько копий что нежелательно ибо perl/cgi грузиться при каждом новом процессе. mod_perl находиться в разделяемой памяти как и PHP . Их безболезненно можно запустить много. Если вы на shared хостинге принципиальным будет время выполнения процессов, тут лучше наверное перл ибо php легко выставляется в минимальное время выполнения и спайдер за запуск будет успевать содрать пару документов. Разумеется ресь идет о запуске из-под апача .
Что касается C , тоже вариант. И я б не сказал что намного лучше.
И нужно разделять сам спайдер и индексатор , это две разные задачи . И они могут быть реализованы на разных языках.
Больше зависит от программиста и програмно-алгоритмической реализации нежели от средства.
По-моему это слишком оптимистичное утверждение. Если использовать mod_perl в многопоточном апаче (worker.mpm или подобное) - то по крайней мере пакет LWP будет глючить. Нормально работать будет только в prefork режиме, что по сути то же самое, что создание нескольких процессов.