Ну вообще вроде бы не должны, получается по одному запросу в 3 секунды. Но лучше проверять :)
Читайте тему
PR никто не обнулял, Гугл просто закрыл доступ по старым запросам на получение PR.
Вот "старый" запрос к www.google.com:
GET /search?client=navclient-auto&ch=%CHECKSUM%&features=Rank&q=info:%URL%
Вот "новый" запрос к toolbarqueries.google.com, который прекрасно работает:
GET /tbr?features=Rank&sourceid=navclient-ff&client=navclient-auto-ff&ch=%CHECKSUM%&q=info:%URL%
Более подробная информация тут.
CheckParams уже проверяет PR по "старому новому" адресу :)
При ~1000-1500 паблик прокси проверяю около 200-300 урлов в секунду с помощью CheckParams. Миллион урлов проверить - вообще не проблема.
Думаю, ближе к завтрашнему вечеру.
Я сейчас как раз делаю вариант, что абсолютно все ссылки сохраняются на диск (имена файлов будут в виде MD5-хэшей), а потом уже с помощью .htaccess делается редирект на пхпшный скрипт, который сам решает, какую страницу отображать в ответ на запрос веб-сервера. И вот как раз в этом скрипте можно реализовать любую логику перед выводом запрошенной страницы - вставлять код сапы, заменять какие-то части текста и т.д.
В общем, как будет релиз, я приложу пример сохраненной копии сайта, которую можно будет сразу же залить на хостинг без какой-либо "допилки".
По существу вопроса можете что-то сказать? :) Как говорится, колхоз - дело добровольное, я никого не призываю ничего покупать.
Коллега, у вас пожелания по работе парсера веб-архива есть? Не вижу причин, почему название не соответствует содержимому. Ведь чтобы запустить какую-нибудь утилиту под, например, Windows, нужно сначала купить лицензию на саму эту Windows, так ведь? :) Но из-за этого же никто не говорит, что утилита на самом деле платная? Или говорит? :)
Да, вы правы, количество потоков сейчас обновляется только после перезапуска программы. Будет исправлено в следующей версии. На всякий случай приложу скриншот, на котором a - общее число потоков, указанное в настройках, b - используемое в данный момент число потоков.
На данный момент не считает. Если есть такая потребность, могу доработать.
Объединились. Все что хранится в WA в рамках одного года, складывается в одну папку. При этом данные могут перезаписываться. Пока лучшего алгоритма не придумал, можно хоть по дням раскладывать, но тогда совсем тяжело будет собрать в единую версию.
Будет исправлено в ближайшей версии.
Инициатива моя :) Не юзал русскоязычные сайты во время разработки, если мешает жить - исправлю.