Сервис для проверки ссылок на вложенность

12
Петр Елагин
На сайте с 21.03.2007
Offline
197
#11
karlsonfly:
парсер написан на php
скорость зависит от количества ссылок 2 и 3 уровней на сайте

По моим граблям идете)

Дальше не имеет смысла продолжать.

karlsonfly
На сайте с 26.07.2007
Offline
103
#12
AlienZzzz:
По моим граблям идете)
Дальше не имеет смысла продолжать.

почему не имеет смысла?

Счастлив тот, кто падает вниз головой! Мир для него, хоть на миг, а иной
Петр Елагин
На сайте с 21.03.2007
Offline
197
#13
karlsonfly:
парсер написан на php

проверяем сайт с 1000 страниц

Для каждой странички ее нужно скачать (примерно 20-30 килов текста) = 20 метров

потом еще нужно вытацить все внутренние ссылки (опять регексп)

и на каждой убрать javascript (это или регекспом или своим парсером)

память пошла течь

а также еще и процесорное время.

Но это же все 1 сайт.

karlsonfly
На сайте с 26.07.2007
Offline
103
#14

Мы постараемся сделать, чтобы скрипт работал как можно быстрее, но мы не отрицаем того, что нужно будет время, для проверки ссылок и чем их будет больше, тем дольше он будет проверять!

но по другому работать скрипт не может =)

Петр Елагин
На сайте с 21.03.2007
Offline
197
#15
karlsonfly:
Мы постараемся сделать, чтобы скрипт работал как можно быстрее, но мы не отрицаем того, что нужно будет время, для проверки ссылок и чем их будет больше, тем дольше он будет проверять!

но по другому работать скрипт не может =)

поэтому я и написал "По моим граблям идете"

какой бы не ПХП, не потоковый он и не быстрый в плане парсинга (

PIN_KOD
На сайте с 19.11.2006
Offline
85
#16

Я так понимаю идея умерла?

Петр Елагин
На сайте с 21.03.2007
Offline
197
#17
PIN_KOD:
Я так понимаю идея умерла?

У каго умерла , а у Каго и нет )

R
На сайте с 03.04.2008
Offline
90
#18
AlienZzzz:
проверяем сайт с 1000 страниц

ну как бы если это сервак, то ничего страшного, вопрос скорее во времени, лично я делал интервалы по 5 сек между обращениями к одному сайту. что бы не "убить" его не нароком.

но конечно в режиме онлайн проверить 1000 страниц налету невозможно - должен быть паук + у него есть база заявок для обхода

может и будет такой сервис в рамках моего проекта в будущем...

ICQ: 577-662-540 продвижение сайтов за еду (/ru/forum/480944) продвину Ваш сайт за 3000/мес. Портфолио по запросу
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий