Почему же... Сайт называется freeproxy, т.е. даже из названия видно, что бесплатные прокси там есть. И платные тоже - цена $1 за 1000 проксей по моему вполне нормальна. Их наверное даже проверять не надо. Можно вообще запустить проверку в 1 поток, без всяких проксей - думаю прокатит.
С распределением памяти проблем нет, я же не первый день программы пишу.
Насчет проксей, список можно взять с http://freeproxy.ru/ там же есть ссылки на программы для проверки этих проксей.
Сама же программа при использовании прокси делает 5 попыток - т.е. если прокси не подошел, берет другой, и так 5 раз пока страница не скачается.
Сделал небольшое обновление, во много раз ускорена работа программы с большими списками сайтов (список порядка 100 тысяч сайтов загружается моментально, 500 тыс - около 3-х сек, результаты могут варьироваться в зависимости от компьютера, но не сильно).
Если сайтов более 100 тыс то лучше делать отчет в CSV и открывать его Excel'ем - потому что html отчет с таким кол-вом строк в таблице довольно долго (секунд 20-30) загружается браузером.
Проверил прогу, поначалу грузилось довольно долго (база 110К сайтов), сделал обновление теперь загружается менее чем за полсекунды.
Насчет самой проверки, все сайты дожидатся не стал, проверил сотню, все норм.
Да и насчет "выкладывать 500 рублей просто так" забыл сразу сказать - в случае если все совсем плохо предусмотрен возврат денег, поэтому можно не волноваться.
Может, MassPageChecker - /ru/forum/140651
Дайте пример в личку. Процесс проверки в версии 1.5 такой же как и в 1.4, ничего не менялось.
Посмотри мою прогу ($18): http://altseotools.com/index.php?page=masspagechecker
Это уже есть, noindex учитывается еще с первых версий.
Как тут уже правильно отметили, ссылки, выводимые через яваскрипт, флеш или еще каким нибудь экзотическим способом не учитываются как моей программой, так и поисковыми роботами.
Уже 4 раза отправлял Вам ключ, и сегодня тоже. У Вас ящик на gmail.com, думаю, стоить проверить папку со спамом.
Не бета, а демо версия. Все должно работать, скиньте пару примеров таких сайтов в личку, я проверю.
Дела обстоят не очень, если в несколько потоков. Лучше делать в один, тогда вероятность бана снижается. Дело еще в том, что я проверяю с IP спутникового провайдера, и такие IP наверное у яндекса в белом списке - я ни разу не получал бан.
Буду очень признателен, если кто-нибудь пришлет мне образец этой страницы (где надо нажать я не робот) - постараюсь научить программу нажимать на эту кнопку, если есть капча - распознавать ее.
happy-joker - эти ошибки значат, что сайт или не досутпен, или вас банят.