Нужен парсер титлов или простой анализатор контента по списку URL

S
На сайте с 20.05.2015
Offline
7
1346

Задача такая:

Есть список URL (около 300000 штук). Требуется отфильтровать из них сайты, которые уже не функционируют, но находятся у хостера на парковке. То есть в титле или контенте нужно найти ключевую фразу, например "истек срок регистрации домена", "этот домен, возможно, продается" и т.д.

Поскольку нужно проверить много сайтов, нужен многопоточный софт. Желательно бесплатный, так как задача на один раз. Как минимум нужен простой, но многопоточный сборщик титлов по списку сайтов. Никак не могу найти что-то подходящее.

Или, может быть, есть более изящное решение этой проблемы?

Двойной VPN. Непробиваемая анонимность. (https://hideconnect.com/ru/site/rates?ref=381)
TOBBOT
На сайте с 04.11.2014
Offline
41
#1

Softamas, есть прямо то, что вам нужно. И бесплатное, и многопоточное, и тайтлы парсит: TOBBOT: модуль URL Analyze

p.s. Не сочтите за тупой спам. ТС не мой клон. Просто я оказался в нужный момент в нужном месте )

Инструменты интернет-маркетинга - JLAB (http://jlab.io/) Бесплатная автоматизация с программой TOBBOT (http://tobbot.com/)
S
На сайте с 20.05.2015
Offline
7
#2

Спасибо за оперативность, сейчас посмотрю. Прогу эту видел, но по описанию сразу не понял, что это оно. Отпишусь.

---------- Добавлено 20.05.2015 в 20:19 ----------

Загрузил 1000 сайтов для теста. Процесс дошел до 256 строки и остановился. Увеличил кол-во потоков до 100. Перегрузил прогу, добавил опять 1000 сайтов. Процесс прошел дальше, до 398-й позиции, еще с одной попытки до 401-й. Прогресс, конечно, налицо, но у меня сотни тысяч URL. Где собака порылась? Стоит заметить, что в списке сайтов есть и те, которые не отвечают.

---------- Добавлено 20.05.2015 в 20:47 ----------

Менял различные параметры. Повторные запуски с таким же результатом. Процесс останавливается на определенной позиции. Ну или у меня руки кривые. В общем сабж пока остается актуальным.

TOBBOT
На сайте с 04.11.2014
Offline
41
#3
Softamas:
Загрузил 1000 сайтов для теста. Процесс дошел до 256 строки и остановился. Увеличил кол-во потоков до 100. Перегрузил прогу, добавил опять 1000 сайтов. Процесс прошел дальше, до 398-й позиции, еще с одной попытки до 401-й. Прогресс, конечно, налицо, но у меня сотни тысяч URL. Где собака порылась? Стоит заметить, что в списке сайтов есть и те, которые не отвечают.

Давайте уточним. "Процес дошел до 398" это Row: 398/1000 или Results: 398/0.

Только что сгенерировал несколько тысяч 4-х символьных COM доменов. Меньше чем за минуту - все были проверены. Возможно, что вы что-то делаете не так. Обращайтесь через контакты на сайте - помогу.

S
На сайте с 20.05.2015
Offline
7
#4

Написал через форму на Вашем сайте.

S
На сайте с 20.05.2015
Offline
7
#5

Хороший софт, шустро работает. Саппорт оперативный и отзывчивый. У модулей открытый код, можно менять логику, править регулярные выражения. Рекомендую.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий