Скрипт напишу, я думаю пока не поймут что и как загнать половину конкуров в бан ))))) не так сложно ) ручной отбор )
за пол часа сколько заплатите то ?
Вы сайт то на с++ сделайте, потом 10 сайтов, а потом поуправляйте этим хозяйством)
Сделал органичение на ВСЁ количество ссылок. - оно ровно 30к.
т.е. если количество ссылок с сайта превышает 30к. я останавливаю процес сканирования, если вы считаете, что я не прав. отпишите.
Сайт был не доступен при большом количестве потоков.
Operation timed out after 60000 milliseconds with 0 bytes received
______________________
Уменьшил потоки, получил вот что, на этой странице нет ссылок для парсинга.
xxxxxxxx портал
Сайт недоступен.
Пожалуйста, сообщите об этом Администратору
Невозможно подключиться к серверу базы данных
Отпишите мне . я поставлю для вас специальный режим.
Это вы так зря, пхп легок для усваения, но когда начинается что-то крупное, пхп не справляется с задачами, которые на него хотят возложить, лучше сразу изучать, то, что можно использовать в разных сферах, а не только показ html страничек ( да простят меня любители пхп, но опыт работы на пхп более 5 лет дает свое)
AlienZzzz добавил 20.06.2009 в 10:55
Согласен на все 100. и пхп не потоковый.
Начни с хорошего: Python( http://ru.wikipedia.org/wiki/Python ), Ruby ( http://ru.wikipedia.org/wiki/Ruby)
AlienZzzz добавил 20.06.2009 в 10:50
изучение шарпа - это кабала микрософта. далее нет выхода ) будите сидеть только на виндовозе и не ощутите всю прелесть потоковой Фуги ))
Есть и Мы еще), ввсе что написали есть . отпиши в личку ) если заинтересовались.
Робот прикрутил, пользуйтесь.
Суть процесса такая -
Я собираю все Disallow: по файлу роботс, и отбрасываю пустые строчки, после этого , если у меня встречается ссылка со вхождением по Disallow, я ее не добавляю и не захожу по ней.
____
Задержу брать могу, но пока не сунул, так как нужно подумать куда ее сувать (!)
___
Вопрос в Зал, никто не против будет если я количество потоков буду устанавливать по количеству добавляемых сайтов , ну например :
10 сайтов = это 3 потоков
50 сайтов = это 10 потоков
500 сайтов = это 50 потоков
1000 сайтов = это 70 потоков
3000 сайтов = это 100 потоков
5000 сайтов и выше = это 300 потоков
_____
при условии, Если не стоит спец установок для пользователя.
сейчас стоит 30 потоков по умолчанию и у меня получается простой, когда добавляют по 10к сайтов, хапать по 30 сайтов очень накладно( инициализация процеса - как оказалось по профайлу очень тяжеловестна )
2! - ограничение захода нашего робота до УВ2 (второго уровня вложенности) страниц
3! - ограничение захода нашего робота до УВ3 (третьего уровня вложенности) страниц
Добавлено, в принципе можно любой уровень указывать, по умолчанию пропарсит все страницы, если будет число, то по сути это количество моих итераций :
2- от морды на 1
3- от морды на 2
ну и так далее.
П.С. прикручиваю роботс )