CheckParams - массовая проверка параметров доменов и ссылок

M
На сайте с 09.02.2008
Offline
68
mlu
#61

Программа чуть-чуть обновилась:

* появилась возможность делить прокси на равные части, чтобы разные (не пересекающиеся) списки использовать в разных местах

* добавлена поддержка замены макросов программы через скрипты (функция ReplaceMacroses).

* прокси из списка good при перепроверке теперь помещаются в начало списка source, а не в его конец, что увеличивает скорость перепроверки.

* добавлен вызов функции OnLoadUrl() из скриптов, позволяющий считывать ссылки для проверки из файлов произвольного формата, баз данных и так далее.

* добавлена возможность отключения записи заголовка csv-файла с именами полей (параметр write_header, используется для записи файлов результатов в собственном формате, например, XML).

* изменено поведение программы при закрытии со включенным режимом start_before_engine, теперь интерфейс программы не "подвисает" при выходе.

* изменено поведение программы при бане прокси, теперь забаненный прокси сразу блокируется без ожидания нескольких банов подряд

* добавлена возможность удалять прокси, которые были рабочими некоторое время без их последующей перепроверки (параметр delete_alive)

* добавлена новая статистика (расход памяти, handles, скорость проверки)

* добавлена возможность использовать компоненты ActiveX в скриптах (функция CreateActiveX)

Скачать обновлённую программу можно по этой ссылке: http://checkparams.com/download

Появился человек, занимающийся скриптами для CheckParams.

В настоящее время с помощью скриптов в программе реализован следующий функционал:

* Парсинг url из поисковой выдачи Google по заданному списку слов (в том числе inurl:, site: и т.д.). Парсинг является многопоточным, всецело использует возможности CheckParams, и гарантирует полное получение данных из поисковой системы (каждый запрос выполняется вплоть до получения результата)

* Поиск определенного содержимого на страницах из поисковой выдачи Google и других поисковых систем

* Проверка обратных ссылок (Yahoo) списка доменов на PR, ТиЦ и т.д.

* Автоматизированный сбор списка доменов к проверке из различных источников (SnapNames, NameJet и т.д.)

Следующий функционал может быть реализован с помощью скриптов:

* Проверка обратных ссылок доменов на индексацию в поисковых системах

* Запросы к экзотическим whois, которые не поддерживаются базовым функционалом программы

* Сохранение и чтение результатов проверки из баз данных, xml-файлов и т.д.

* Парсинг форумов, сайтов и т.д.

* Проверка сайтов ucoz, LiveJournal на занятость и другие показатели

* Автоматическое заполнение форм на сайтах

Приведенный перечень скриптовых возможностей программы далеко не полон - с помощью скриптов можно реализовать практически что угодно.

Подробнее про скрипты тут: http://checkparams.com/scripting

[Удален]
#62

mlu, интересная прога. Особенно интересна скорость работы.

Subudayj
На сайте с 24.06.2008
Offline
67
#63
gasyoun:
Особенно интересна скорость работы.

Это статистика проверки PR, скорость еще не такая высокая из-за отсутствия свободных проксей :)

Threads: 1000/1000, speed: 309.98 urls/sec., work time: 336 sec., urls processed: 98511, urls failed: 15, urls remains: 0

Google-PR: Checks: 111351, successful: 98496, failed: 6567, bans: 601, free proxies: 0, blocked proxies: 411, using now: 1000

PLU engine: threads: 100/100, sources: 3, source proxies: 0, good: 1411, deleted: 0, checking: 0

Script engine: queued tasks: 0

Traffic incoming: 301169 Bps, outgoing: 204635 Bps; CPU usage total: 11.41%, program: 1.09%

Memory: working set: 143020032, pagefile usage: 162484224, Handles: 6437

Quo vadis?
G
На сайте с 29.01.2011
Offline
1
#64

Прога отличная, работаю с ней уже месяц, аналогов по скорости на просторах интернета не видел, на домашнем интернете скоростью в 512 кб/с прочекать лист на 100к доменов получается за минут 12-15(после экспериментов с настройками), экономит кучу времени при ежедневной рутинной работе, отдельный респект автору, человек крайне приветлив и общителен, возникшие у меня вопросы решил молниеносно.

[Удален]
#65

Subudayj, запустил, круто. Это получается успевай только кейворды для парсипнга подставлять? Прога стучит каждому из, скажем, 40 датацентров сотнями потоков сразу и за 15 минут может выдать 100к доменов с пейджранком и номером телефона из хуизов?

Subudayj
На сайте с 24.06.2008
Offline
67
#66
gasyoun:
Subudayj, запустил, круто. Это получается успевай только кейворды для парсипнга подставлять? Прога стучит каждому из, скажем, 40 датацентров сотнями потоков сразу и за 15 минут может выдать 100к доменов с пейджранком и номером телефона из хуизов?

Про whois не скажу, а вот пейджранк легко за 1млн+ в час можно прочекать при условии большого количества относительно хороших проксей.

[Удален]
#67

Subudayj, а можно хуизилку заказать, чтобы по всем доменам сразу лазила и в табличку csv кидала, чтобы отдать эту рутинную работу проксям. А проксей-то рабочих в таком количестве не подскажите ли, пожалуйста, где берем и почем? Видел тут только 1 русский сервис.

M
На сайте с 09.02.2008
Offline
68
mlu
#68

Здравствуйте!

Рад сообщить об выходе отдельной бесплатной программы, с помощью которой можно редактировать настройки CheckParams "мышкой".

Программа написана одним из пользователей CheckParams, все вопросы/пожаления/предложения по ней следует задавать непосредственно её автору.

Сайт редактора настроек CheckParams: http://configurator.seclab.com.ua/

jpg scrin.jpg
[Удален]
#69

Проверка вебархива не работает, тот вариант что постил товарищь Subudayj тоже не работает (хотя раньше все работало).

Видно чего то подкрутили владельцы вебархива...

Исправьте если возможно запрос, сильно надо!

Subudayj
На сайте с 24.06.2008
Offline
67
#70

Обновленная версия модуля по проверке наличия сайта в веб-архиве:

			<wa module_name="WA-new" enabled="1" check_interval="0" retries="100" use_proxies="0" results_mode="2" download_size="999999">

<request _onBeforeRequest="HTTP_OnBeforeRequest" _onAfterRequest="HTTP_OnAfterRequest">
<server address="web.archive.org" port="80"/>
<headers><![CDATA[GET /*/http://%URL% HTTP/1.1
Host: web.archive.org
User-Agent: #$m$UA$m$#
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Connection: close

]]></headers>
<checks>
<check result="parse" present="0" icase="1" type="regexp"><![CDATA[\n\r?^HTTP/1|4.\d\s+2\d\d]]></check>
<check result="good" present="1" icase="1" type="regexp"><![CDATA[The Wayback Machine is an initiative]]></check>
<check result="parse" type="*"/>
</checks>
</request>
<results>
<regexps>
<regexp name="%is_found%" icase="1" format="yes" default="no"><![CDATA[This calendar view maps the number of times]]></regexp>
</regexps>
<fields delimiter_replace="\;">
<field title="WA present" format="plain">%is_found%</field>
</fields>
</results>
</wa>

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий