Subudayj

Subudayj
Рейтинг
67
Регистрация
24.06.2008
leoseo:
Подскажите если я напрямую сделаю через свой скрипт на сервере, проверку PR по запросу "GET /tbr?features=Rank&sourceid=navclient-ff&client=navclient-auto-ff&ch=%CHECKSUM%&q=info:%URL%", то при массовой проверке сайтов без прокси где-то 20 в минуту, не забанят ли ИП ?

Ну вообще вроде бы не должны, получается по одному запросу в 3 секунды. Но лучше проверять :)

Valeriy:
Сорри, а это было? Верить?

PR никто не обнулял, Гугл просто закрыл доступ по старым запросам на получение PR.

Вот "старый" запрос к www.google.com:

GET /search?client=navclient-auto&ch=%CHECKSUM%&features=Rank&q=info:%URL%

Вот "новый" запрос к toolbarqueries.google.com, который прекрасно работает:

GET /tbr?features=Rank&sourceid=navclient-ff&client=navclient-auto-ff&ch=%CHECKSUM%&q=info:%URL%

Более подробная информация тут.

CheckParams уже проверяет PR по "старому новому" адресу :)

При ~1000-1500 паблик прокси проверяю около 200-300 урлов в секунду с помощью CheckParams. Миллион урлов проверить - вообще не проблема.

Filan:
Subudayj, а на когда релиз запланирован?

Думаю, ближе к завтрашнему вечеру.

Filan:
Subudayj, склоняюсь к 3му варианту. Но лучше поставить голосовалку на этот топик.

Я сейчас как раз делаю вариант, что абсолютно все ссылки сохраняются на диск (имена файлов будут в виде MD5-хэшей), а потом уже с помощью .htaccess делается редирект на пхпшный скрипт, который сам решает, какую страницу отображать в ответ на запрос веб-сервера. И вот как раз в этом скрипте можно реализовать любую логику перед выводом запрошенной страницы - вставлять код сапы, заменять какие-то части текста и т.д.

В общем, как будет релиз, я приложу пример сохраненной копии сайта, которую можно будет сразу же залить на хостинг без какой-либо "допилки".

Kost Troll:
Subudayj, просто хочется расставить все точки над I .
Что мы собственно с вами, общими усилиями сделали.
Бесплатный многопоточный парсер WebArchive в виде плагина к платной программе Checkparams

По существу вопроса можете что-то сказать? :) Как говорится, колхоз - дело добровольное, я никого не призываю ничего покупать.

Kost Troll:
mlu, - заметьте, в топик, касающийся вашей мошной программы я ни словом не вписался, здесь мы обсуждаем :
Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams
У меня лично возникли вопросы относительно бесплатности данного софта.

Коллега, у вас пожелания по работе парсера веб-архива есть? Не вижу причин, почему название не соответствует содержимому. Ведь чтобы запустить какую-нибудь утилиту под, например, Windows, нужно сначала купить лицензию на саму эту Windows, так ведь? :) Но из-за этого же никто не говорит, что утилита на самом деле платная? Или говорит? :)

Mike05:
Очень шустро скачало сайт, хотя и не полностью (хотя в сеттингс я поставил 50 потоков, но, похоже, работали все 900 запланированных).

Да, вы правы, количество потоков сейчас обновляется только после перезапуска программы. Будет исправлено в следующей версии. На всякий случай приложу скриншот, на котором a - общее число потоков, указанное в настройках, b - используемое в данный момент число потоков.

Mike05:
Я не совсем понял, считает ли сама прога, что она все сделала, т.к. кн. Старт осталась нажатой, но она уже ничего не делает.

На данный момент не считает. Если есть такая потребность, могу доработать.

Mike05:
В папке результатов три подпапки с годами, а объединялись ли там (если да, то как) версии в рамках года я не очень понял.

Объединились. Все что хранится в WA в рамках одного года, складывается в одну папку. При этом данные могут перезаписываться. Пока лучшего алгоритма не придумал, можно хоть по дням раскладывать, но тогда совсем тяжело будет собрать в единую версию.

Mike05:
Недостаток: почему-то не скачались страницы вида домен/news.htm?nid=555 - хотя в вебархиве они есть.

Будет исправлено в ближайшей версии.

Mike05:
ЗЫ: кстати, не знаю, кто инициатор такой фичи, но исходный сайт в кодировке 1251, а скачанный в утф-8 (соотв. барузер это показывает только после ручного выставления кодировки или правки заголовков страниц).

Инициатива моя :) Не юзал русскоязычные сайты во время разработки, если мешает жить - исправлю.

Всего: 288