SiteAnalyzer умеет определять дубли, а также есть отдельный модуль в виде небольшой программы - BatchUniqueChecker
Глянул keys.so
Мало обратных ссылок видит. Может для рунета он еще подходит, но для буржа точно не вариант
А где в исходном посте примечание, что для анализа ссылок с буржа?
Как вопрос поставили, так вам и отвечают.
Здравствуйте. В программе как-то можно обойти 403 ошибку при проверке URL? На странице, с которой надо получить данные, подключен cloudflare. И, видимо, он вызывает ее.
Тоже загружал 10к урлов, программа зависла на ~7000 и не проверяла дальше на протяжении нескольких часов.
Ок, начал заново задачу, программа проверила все 10к урлов, но уникальность не выдала.
Подал 1500 урлов, только тогда отработала.
Сейчас подаю 5000 урлов, программа все проверила, но уже больше часа не определяет уникальность. В логе новых событий не появляется.
Версия 1.3 (build 21)
интересный парсер... )
не хватает мануала к нему, ну или несколько кейсов в которых программа оказалось полезной ;)
Совсем скоро добавим мануал с реальными примерами
А пока, можно пользоваться шаблонами для парсинга из этой статьи - https://site-analyzer.ru/articles/buscr/